基于词向量模型的中文序列比对研究

首页 > 成果 > 详情

认领

导出

Link by 中国知网学术期刊 Link by 万方学术期刊

反馈

作者信息关键词期刊信息基础信息归属信息摘要

成果类型：

期刊论文

作者：

熊回香（熊回香）;赵登鹏;卢晨凡

作者机构：

[熊回香; 赵登鹏] 华中师范大学.信息管理学院

[卢晨凡] 上海财经大学.统计与管理学院

语种：

中文

关键词：

中文序列;序列比对;全局比对;文本相似度

关键词(英文)：

Word2vec

期刊：

图书情报工作

ISSN：

0252-3116

年：

2020

卷：

期：

页码：

86-98

DOI：

10.13266/j.issn.0252-3116.2020.10.010

基金类别：

国家社会科学基金年度项目"融合知识图谱和深度学习的在线学术资源挖掘与推荐研究"(项目编号:19BTQ005) 中央高校基本科研业务费重大培育项目"基于语义网的在线健康信息的挖掘与推荐研究"(项目编号:CCNU19Z02004)研究成果之一。

机构署名：

本校为第一机构

院系归属：

信息管理学院

摘要：

[目的/意义]针对生物信息学中著名的序列比对算法在文本相似度中的应用,改进前人的方法并提高文本相似度计算的准确性。[方法/过程]首先,对目标文本进行规范化处理,构成中文序列集。随后,利用训练好的Word2vec中的Skip-Gram模型来构建该中文序列集的语词对打分矩阵并制定好打分规则。最后,对中文序列两两进行全局比对并获得比对的最优解,回溯得到最优解的比对路径,计算中文序列的相似度。[结果/结论]实证结果表明,相较于传统方法,本文方法融合词向量模型提升文本相似度计算的准确性并有效解决传统方法中出现重复词对的问题。

摘要(英文)：

[Purpose/significance]For the application of the famous sequence alignment algorithm in bioinformatics in text similarity,this paper improves the methods of predecessors and improves the accuracy of text similarity calculation.[Method/process]First,the target text was normalized to form a Chinese sequence set.Subsequently,The trained Skip-Gram model in Word2vec is used to construct the scoring matrix of the Chinese sequence set and formulate the scoring rules.Finally,the Chinese sequences were compared two-two and the optimal solution was obtained.The comparison path of the optimal solution wa...

反馈

产权有误：本人成果被他人认领

数据有误：数据基本信息有误

归属有误：成果的院系归属、机构署名归属有误

其他原因：

验证码：

看不清楚，换一个

确定

取消

成果认领

标题：

用户	作者	通讯作者	--
	请选择	请选择	--

确定

取消

基于词向量模型的中文序列比对研究

反馈

成果认领

提示

该栏目需要登录且有访问权限才可以访问