1.一种基于文本摘要的小学语文作文语料标签自动提取方法,其特征在于该方法包括以下步骤:(1)采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行摘要处理,去除冗余;(2)对摘要处理后的文本采用基于N‑最短路径算法的分词方法进行分词及词性标注,分词的过程中,通过层叠隐马尔科夫模型对分词结果进行命名实体识别,其中词性nr代表人名实体,ns代表地名实体,nz代表专有名词;(3)将分词及词性识别后的词汇列表,按照词频进行降序排序后,依据小学语文作文语料标签定义进行标签的自动化提取,所述小学语文作文语料标签包括文章类型、核心实体、关键描述,提取策略如下:(3‑1)获取核心实体;提取词频最高的1‑2个nr,ns作为核心实体;(3‑2)获取文章类型;对全文的nr,ns进行词频和统计;通过对词频和的比较,词频总和更高的nr或ns所属类型即为文章类型;(3‑2)获取关键描述;获取策略如下:(a)当前词语长度是否超过2,不满足则输出否;(b)当前词语的词频是否大于等于2,不满足则输出否;(c)当前词语词性是否为所要求的描述性词语词性,不满足则输出否;其中,所要求的描述性词语词性为形容词、习惯用语、俗语、成语;(d)同时满足(a)、(b)、(c)条件的,判断词语属于关键描述;(e)特殊情况下,出现次数超过3次且长度大于等于2的一般名词及专有名词将被判断属于关键描述;(f)当列表读取结束,总标签数仍不满足目标的情况下,对词汇列表中词频为1,但字数在4个以上的俗语及成语进行补充录入;(4)最终的标签结果,由文章类型、核心实体、关键描述三项总计不超过6个词汇组成;对标签结果进行输出。