登录    注册    忘记密码

专利详细信息

基于视觉的列表页识别方法       

文献类型:专利

专利类型:发明专利

是否失效:

是否授权:

申 请 号:CN201510910416.1

申 请 日:20151210

发 明 人:王树强 张作职

申 请 人:天津海量信息技术有限公司

申请人地址:300020 天津市和平区南马路11号麦购国际大厦23层

公 开 日:20160504

公 开 号:CN105550279A

代 理 人:王山

代理机构:天津市尚仪知识产权代理事务所(普通合伙)

语  种:中文

摘  要:一种本发明的基于视觉的列表页识别方法,依据视觉规则对页面的Html进行分块、完成Html主体区域的识别,进而判断是否是列表页以获取必要的连接。先找到网页的主体部分,左右边栏和页眉页脚都忽略,然后根据字体,字号,字重,位置等信息,来判断主体部分,如果是以链接为主体则可判断为列表页。本发明通过模仿人在观察Web页面时候的处理方式,提高了列表页收集的速度和准确度,从而便于及时准确地对网站上变化的内容进行收集。

主 权 项:1.一种基于视觉的列表页识别方法,包括以下步骤: A、基于浏览器的下载,获取网页的Dom树; B、进行Html分块,即按照视觉进行分块; C、Html主体区域的识别,以找到主要的区域; D、列表页模式识别,通过模式识别判断是否是列表页; E、分析链接,获取候选链接,找到必要的链接; F、获取到新链接时,返回执行步骤A。

关 键 词:列表  判断  视觉  处理方式  主体区域  准确度  速度和  页识别  左右边  收集  分块  链接  网站  页脚 页眉 一种  字号  字体 模仿 网页  忽略  识别  获取  连接  观察  准确  进行  找到  变化  完成  

IPC专利分类号:G06F17/30(20060101)

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心