版权说明 操作指南
首页 > 成果 > 详情

文献被引片段特征分析与识别研究

认领
导出
Link by 中国知网学术期刊 Link by 维普学术期刊 Link by 万方学术期刊
反馈
分享
QQ微信 微博
成果类型:
期刊论文
论文标题(英文):
Recognizing and Analyzing Cited Spans in Literature
作者:
徐健;李纲;毛进;叶光辉(叶光辉
作者机构:
武汉大学信息资源研究中心, 武汉, 430072
华中师范大学信息管理学院, 武汉, 430079
[叶光辉] 华中师范大学信息管理学院, 武汉, 430079
[徐健; 李纲; 毛进] 武汉大学信息资源研究中心, 武汉, 430072
语种:
中文
关键词:
被引片段;识别方法;引文上下文;引用对象
关键词(英文):
Cited Spans;Recognition Method;Citation Context;Citation Object
期刊:
数据分析与知识发现
ISSN:
2096-3467
年:
2017
卷:
1
期:
11
页码:
37-45
机构署名:
本校为其他机构
院系归属:
信息管理学院
摘要:
【目的】对科技文献领域的被引片段概念的特征进行分析,并比较不同识别方法效果的差异。【方法】以CL-Sci Summ 2016比赛被引片段标注数据为例,探索被引片段长度、位置与重要性特征,并分析与其对应引文上下文在长度和位置上的相关性。之后以基于词袋模型、主题模型、Word Net语义词典的相似性算法为例,比较这些方法在被引片段识别中的效果差异。【结果】研究结果发现:被标注的被引片段有96%少于三句,且更多地出现在文章前部和章节内的前部分,被引片段的Text Rank权重均值显著高于其他片段;被引片段与引文上下文在长度上显著相关,但在出现位置上相关性不明显;无论从MMR?还是句子与词汇层面的匹配...
摘要(英文):
[Objective] This paper analyzes features of the cited document spans, and compares the effectiveness of several recognization techniques. [Methods] Firstly, we analyzed the annotated data of cited spans from CL-Sci Summ 2016 for their length and position features as well as correlations with citation contexts. Then, we compared the effectiveness of bag-of-words, topic model, semantic dictionary(Word Net) methods by their performance of recognizing cited spans. [Results] We found that 96% of the annotated cited spans were less than three sente...

反馈

验证码:
看不清楚,换一个
确定
取消

成果认领

标题:
用户 作者 通讯作者
请选择
请选择
确定
取消

提示

该栏目需要登录且有访问权限才可以访问

如果您有访问权限,请直接 登录访问

如果您没有访问权限,请联系管理员申请开通

管理员联系邮箱:yun@hnwdkj.com