版权说明 操作指南
首页 > 成果 > 详情

基于标题机器学习的网页分割方法

认领
导出
Link by 中国知网学术期刊 Link by 万方学术期刊
反馈
分享
QQ微信 微博
成果类型:
期刊论文
作者:
李进生;乐惠骁;童名文
作者机构:
武汉市广播电视大学现代教育技术中心 武汉430033
华中师范大学教育信息技术学院 武汉430079
[乐惠骁; 童名文] 华中师范大学
[李进生] 武汉市广播电视大学
语种:
中文
关键词:
网页分割;标题;行块分布函数;块深度;机器学习
关键词(英文):
Title;Liner block function;Block depth;Machine learning
期刊:
计算机科学
ISSN:
1002-137X
年:
2018
卷:
45
期:
B06
页码:
583-587
基金类别:
教育部人文社科基金资助项目:数字化学习资源无障碍适配决策模型研究(15YJA880062)资助;
机构署名:
本校为其他机构
院系归属:
教育信息技术学院
摘要:
针对已有网页分割方法都基于文档对象模型实现且实现难度较高的问题,提出了一种采用字符串数据模型实现网页分割的新方法。该方法通过机器学习获取网页标题的特征,利用标题实现网页分割。首先,利用网页行块分布函数和网页标题标签学习得到网页标题特征;然后,基于标题将网页分割成内容块;最后,利用块深度对内容块进行合并,完成网页分割。理论分析与实验结果表明,该方法中的算法具有O(n)的时间复杂度和空间复杂度,该方法对于高校门户、博客日志和资源网站等类型的网页具有较好的分割效果,并且可以用于网页信息管理的多种应用中,具有良好的应用前景。
摘要(英文):
To solve the problem that it is difficult to implement the web page segmentation method based on document object model (DOM),a novel method was proposed through employing string model.The feature of the title of a web page is dug out by machine learning.Based on the found title,the web page is segmented.Firstly,the titles in web pages are picked up by the information of liner block function and title tag.Secondly,web pages are partitioned into content blocks by using the titles.Finally,the content blocks are merged by block depth information.It is proved that the com-plexity of algorithms in t...

反馈

验证码:
看不清楚,换一个
确定
取消

成果认领

标题:
用户 作者 通讯作者
请选择
请选择
确定
取消

提示

该栏目需要登录且有访问权限才可以访问

如果您有访问权限,请直接 登录访问

如果您没有访问权限,请联系管理员申请开通

管理员联系邮箱:yun@hnwdkj.com