一种PST_LDA中文文本相似度计算方法

首页 > 成果 > 详情

认领

导出

Link by 中国知网学术期刊 Link by 万方学术期刊

反馈

作者信息关键词期刊信息基础信息归属信息摘要

成果类型：

期刊论文

作者：

张超;陈利;李琼

作者机构：

华中师范大学计算机学院, 武汉, 430079

汉口学院计算机科学与技术学院, 武汉, 430212

[张超; 陈利] 华中师范大学计算机学院, 武汉, 430079

[李琼] 汉口学院计算机科学与技术学院, 武汉, 430212

语种：

中文

关键词：

词性标注;LDA模型;PST_LDA模型;文本相似度计算

关键词(英文)：

LDA model;PST_LDA model;text similarity calculation

期刊：

计算机应用研究

ISSN：

1001-3695

年：

2016

卷：

期：

页码：

375-377,383

DOI：

10.3969/j.issn.1001-3695.2016.02.012

机构署名：

本校为第一机构

院系归属：

计算机学院

摘要：

为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集分别用LDA和PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方...

摘要(英文)：

This paper introduced a new text similarity algorithm, which was based on the PST_LDA （part-of-speech tagging LDA） , to reduce the time complexity of Chinese text similarity calculation and improve the accuracy of text clustering. The al- gorithm had three procedures. Firstly, it divided the words into noun set, verb set and last words set according to the part of speech. Secondly, applied a LDAimodel to each set. Finally, it combined three models according to the certain proportion and computed the distance of two texts by JS similarity dist...

反馈

产权有误：本人成果被他人认领

数据有误：数据基本信息有误

归属有误：成果的院系归属、机构署名归属有误

其他原因：

验证码：

看不清楚，换一个

确定

取消

成果认领

标题：

用户	作者	通讯作者	--
	请选择	请选择	--

确定

取消

一种PST_LDA中文文本相似度计算方法

反馈

成果认领

提示

该栏目需要登录且有访问权限才可以访问