文献被引片段特征分析与识别研究

首页 > 成果 > 详情

认领

导出

Link by 中国知网学术期刊 Link by 维普学术期刊 Link by 万方学术期刊

反馈

作者信息关键词期刊信息基础信息归属信息摘要

成果类型：

期刊论文

论文标题(英文)：

Recognizing and Analyzing Cited Spans in Literature

作者：

徐健;李纲;毛进;叶光辉（叶光辉）

作者机构：

武汉大学信息资源研究中心, 武汉, 430072

华中师范大学信息管理学院, 武汉, 430079

[叶光辉] 华中师范大学信息管理学院, 武汉, 430079

[徐健; 李纲; 毛进] 武汉大学信息资源研究中心, 武汉, 430072

语种：

中文

关键词：

被引片段;识别方法;引文上下文;引用对象

关键词(英文)：

Cited Spans;Recognition Method;Citation Context;Citation Object

期刊：

数据分析与知识发现

ISSN：

2096-3467

年：

2017

卷：

期：

页码：

37-45

DOI：

10.11925/infotech.2096-3467.2017.0606

机构署名：

本校为其他机构

院系归属：

信息管理学院

摘要：

【目的】对科技文献领域的被引片段概念的特征进行分析,并比较不同识别方法效果的差异。【方法】以CL-Sci Summ 2016比赛被引片段标注数据为例,探索被引片段长度、位置与重要性特征,并分析与其对应引文上下文在长度和位置上的相关性。之后以基于词袋模型、主题模型、Word Net语义词典的相似性算法为例,比较这些方法在被引片段识别中的效果差异。【结果】研究结果发现:被标注的被引片段有96%少于三句,且更多地出现在文章前部和章节内的前部分,被引片段的Text Rank权重均值显著高于其他片段;被引片段与引文上下文在长度上显著相关,但在出现位置上相关性不明显;无论从MMR?还是句子与词汇层面的匹配...

摘要(英文)：

[Objective] This paper analyzes features of the cited document spans, and compares the effectiveness of several recognization techniques. [Methods] Firstly, we analyzed the annotated data of cited spans from CL-Sci Summ 2016 for their length and position features as well as correlations with citation contexts. Then, we compared the effectiveness of bag-of-words, topic model, semantic dictionary（Word Net） methods by their performance of recognizing cited spans. [Results] We found that 96% of the annotated cited spans were less than three sente...

反馈

产权有误：本人成果被他人认领

数据有误：数据基本信息有误

归属有误：成果的院系归属、机构署名归属有误

其他原因：

验证码：

看不清楚，换一个

确定

取消

成果认领

标题：

用户	作者	通讯作者	--
	请选择	请选择	--

确定

取消

文献被引片段特征分析与识别研究

反馈

成果认领

提示

该栏目需要登录且有访问权限才可以访问