版权说明 操作指南
首页 > 成果 > 详情

基于MapReduce的序列模式挖掘算法

认领
导出
Link by 中国知网学术期刊 Link by 万方学术期刊
反馈
分享
QQ微信 微博
成果类型:
期刊论文
作者:
余啸;马传香;李伟亮;金聪
作者机构:
[余啸; 马传香; 李伟亮] 湖北大学计算机与信息工程学院
[金聪] 华中师范大学计算机科学学院
语种:
中文
关键词:
数据挖掘;GSP算法;序列模式;子序列数据库
关键词(英文):
MapReduce
期刊:
计算机应用研究
ISSN:
1001-3695
年:
2015
卷:
32
期:
11
页码:
3312-3314
基金类别:
湖北省自然科学基金资助项目(2011CDB072) 国家社会科学基金资助项目(13BTQ050)
机构署名:
本校为其他机构
院系归属:
计算机学院
摘要:
针对传统GSP算法需要多次扫描数据库、I/O开销巨大的缺点,提出了一种基于MapReduce编程框架的序列模式挖掘算法MR-GSP(GSP algorithm based on MapReduce)。MR-GSP算法将原序列数据库划分为多个子序列数据库并分发到多个Map节点,Map函数扫描存放在Map节点内存中的子序列数据库,产生局部序列模式,Reduce函数对所有局部序列模式合并,扫描原序列数据库,计算局部序列模式的支持度,得到最终的序列模式。相比于传统GSP算法,MR-GSP算法只需扫描两次原始数据库即可得到所有序列模式。实验结果表明,MR-GSP算法在对大数据集进行序列模式挖掘时,可充分利用云计算技术的优势,提高挖掘效率。
摘要(英文):
For the disadvantages that traditional GSP algorithm need to scan the database repeatedly and the I/O overhead is huge, this paper proposed a sequential pattern mining algorithm MR-GSP( GSP algorithm based on MapReduce) based on MapReduce programming framework. The MR-GSP algorithm divided the original sequence database into some sub-sequence databases and distributed them to Map workers, Map function scanned sub-sequence databases stored in memory to generate partial sequence patterns. Reduce function merged all partial sequence patterns and...

反馈

验证码:
看不清楚,换一个
确定
取消

成果认领

标题:
用户 作者 通讯作者
请选择
请选择
确定
取消

提示

该栏目需要登录且有访问权限才可以访问

如果您有访问权限,请直接 登录访问

如果您没有访问权限,请联系管理员申请开通

管理员联系邮箱:yun@hnwdkj.com