版权说明 操作指南
首页 > 成果 > 详情

一种PST_LDA中文文本相似度计算方法

认领
导出
Link by 中国知网学术期刊 Link by 万方学术期刊
反馈
分享
QQ微信 微博
成果类型:
期刊论文
作者:
张超;陈利;李琼
作者机构:
华中师范大学计算机学院, 武汉, 430079
汉口学院计算机科学与技术学院, 武汉, 430212
[张超; 陈利] 华中师范大学计算机学院, 武汉, 430079
[李琼] 汉口学院计算机科学与技术学院, 武汉, 430212
语种:
中文
关键词:
词性标注;LDA模型;PST_LDA模型;文本相似度计算
关键词(英文):
LDA model;PST_LDA model;text similarity calculation
期刊:
计算机应用研究
ISSN:
1001-3695
年:
2016
卷:
33
期:
2
页码:
375-377,383
机构署名:
本校为第一机构
院系归属:
计算机学院
摘要:
为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集分别用LDA和PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方...
摘要(英文):
This paper introduced a new text similarity algorithm, which was based on the PST_LDA (part-of-speech tagging LDA) , to reduce the time complexity of Chinese text similarity calculation and improve the accuracy of text clustering. The al- gorithm had three procedures. Firstly, it divided the words into noun set, verb set and last words set according to the part of speech. Secondly, applied a LDAimodel to each set. Finally, it combined three models according to the certain proportion and computed the distance of two texts by JS similarity dist...

反馈

验证码:
看不清楚,换一个
确定
取消

成果认领

标题:
用户 作者 通讯作者
请选择
请选择
确定
取消

提示

该栏目需要登录且有访问权限才可以访问

如果您有访问权限,请直接 登录访问

如果您没有访问权限,请联系管理员申请开通

管理员联系邮箱:yun@hnwdkj.com