版权说明 操作指南
首页 > 成果 > 详情

采用半随机特征采样算法的中文书写纹识别研究

认领
导出
Link by 中国知网学术期刊 Link by 万方学术期刊
反馈
分享
QQ微信 微博
成果类型:
期刊论文
作者:
黎冬媛;刘智;刘三(女牙)(刘三女牙);孟文婷
作者机构:
[黎冬媛] 电子科技大学中山学院计算机学院
[刘三(女牙); 刘智] 华中师范大学
[孟文婷] 华中师范大学计算机科学系
语种:
中文
关键词:
书写纹;半随机特征采样;个体特征集;集成分类器;差异度
期刊:
计算机科学
ISSN:
1002-137X
年:
2013
卷:
40
期:
2
页码:
120-123,152
基金类别:
国家“核高基”重大专项基金项目(2010ZX01045-001-005); 国家“十二五”科技支撑计划项目(2011BAK08B03); 广东省教育部产学研结合示范基地项目(2011B090500017); 教育部-英特尔信息技术专项科研基金项目(MOE-INTEL-11-02)资助;
机构署名:
本校为其他机构
院系归属:
国家数字化学习工程技术研究中心
摘要:
N-gram字符序列能有效捕捉文本中作者的个体风格信息,但其特征空间稀疏度高,且存在较多噪音特征。针对该问题,提出一种基于半随机特征采样的中文书写纹识别算法。该算法首先采用一种离散度准则为每个作者选取一定粒度的个体特征集,然后将个体特征集以一种半随机选择机制划分成多个等维度的特征子空间,并基于每个子空间训练相应的基分类器,最后采取多数投票法的融合策略构造集成分类模型。在中文真实数据集上与基于随机子空间和Bagging算法的集成分类器进行了对比试验,结果表明,该算法在正确率和差异度方面优于随机子空间和Bagging算法,并且取得了比单分类模型更好的识别性能。
摘要(英文):
Character N-gram can be used to effectively capture individual-author stylistic information in texts. To deal with the problems of high-sparsity and high-redundancy in the feature space, an ensemble classification algorithm based on semi-random feature sampling was proposed in this study. Firstly, the whole feature space is divided into several indi- vidual-author feature sets by a divergence rule. Then each of them is divided into equally sized subspaees by a semkran- dom selection method, and a base classifier is trained on each random subspa...

反馈

验证码:
看不清楚,换一个
确定
取消

成果认领

标题:
用户 作者 通讯作者
请选择
请选择
确定
取消

提示

该栏目需要登录且有访问权限才可以访问

如果您有访问权限,请直接 登录访问

如果您没有访问权限,请联系管理员申请开通

管理员联系邮箱:yun@hnwdkj.com