版权说明 操作指南
首页 > 成果 > 详情

一种基于文本摘要的小学语文作文语料标签自动提取方法与装置

认领
导出
反馈
分享
QQ微信 微博
成果类型:
专利
发明/设计人:
朱晓亮;刘三女牙(刘三女牙);孙建文(孙建文);石昀东;殷姿
申请/专利权人:
华中师范大学
专利类型:
发明专利
语种:
中文
申请时间:
2018-05-31
申请/专利号:
CN201810552976.8
公开时间:
2018-12-18
公开号:
CN109033064A
主申请人地址:
430079 湖北省武汉市武昌区珞瑜路152号
申请地区:
湖北
机构署名:
本校为第一完成单位
主权项:
1.一种基于文本摘要的小学语文作文语料标签自动提取方法,其特征在于该方法包括以下步骤:(1)采用基于BM25相似度算法的TextRank算法对原始小学语文作文语料进行摘要处理,去除冗余;(2)对摘要处理后的文本采用基于N‑最短路径算法的分词方法进行分词及词性标注,分词的过程中,通过层叠隐马尔科夫模型对分词结果进行命名实体识别,其中词性nr代表人名实体,ns代表地名实体,nz代表专有名词;(3)将分词及词性识别后的词汇列表,按照词频进行降序排序后,依据小学语文作文语料标签定义进行标签的自动化提取,所述小学语文作文语料标签包括文章类型、核心实体、关键描述,提取策略如下:(3‑1)获取核心实体;提取词频最高的1‑2个nr,ns作为核心实体;(3‑2)获取文章类型;对全文的nr,ns进行词频和统计;通过对词频和的比较,词频总和更高的nr或ns所属类型即为文章类型;(3‑2)获取关键描述;获取策略如下:(a)当前词语长度是否超过2,不满足则输出否;(b)当前词语的词频是否大于等于2,不满足则输出否;(c)当前词语词性是否为所要求的描述性词语词性,不满足则输出否;其中,所要求的描述性词语词性为形容词、习惯用语、俗语、成语;(d)同时满足(a)、(b)、(c)条件的,判断词语属于关键描述;(e)特殊情况下,出现次数超过3次且长度大于等于2的一般名词及专有名词将被判断属于关键描述;(f)当列表读取结束,总标签数仍不满足目标的情况下,对词汇列表中词频为1,但字数在4个以上的俗语及成语进行补充录入;(4)最终的标签结果,由文章类型、核心实体、关键描述三项总计不超过6个词汇组成;对标签结果进行输出。
摘要:
本发明属于信息技术领域,提供一种基于文本摘要的小学语文作文语料标签自动提取方法与装置,包括以下步骤:文本自动摘要;分词及词性标注;将分词及词性标注后的词汇列表,按照词频进行降序排序后,依据小学语文作文语料标签定义进行标签的自动化提取;输出标签结果。本发明标签自动提取方法与装置能够有效地去除文本冗余,并获取小学语文作文语料结构化数据所需的文本标签,有利于小学语文作文语料素材的合理组织。

反馈

验证码:
看不清楚,换一个
确定
取消

成果认领

标题:
用户 作者 通讯作者
请选择
请选择
确定
取消

提示

该栏目需要登录且有访问权限才可以访问

如果您有访问权限,请直接 登录访问

如果您没有访问权限,请联系管理员申请开通

管理员联系邮箱:yun@hnwdkj.com