专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN201510910416.1
申 请 日:20151210
申 请 人:天津海量信息技术有限公司
申请人地址:300020 天津市和平区南马路11号麦购国际大厦23层
公 开 日:20160504
公 开 号:CN105550279A
代 理 人:王山
代理机构:天津市尚仪知识产权代理事务所(普通合伙)
语 种:中文
摘 要:一种本发明的基于视觉的列表页识别方法,依据视觉规则对页面的Html进行分块、完成Html主体区域的识别,进而判断是否是列表页以获取必要的连接。先找到网页的主体部分,左右边栏和页眉页脚都忽略,然后根据字体,字号,字重,位置等信息,来判断主体部分,如果是以链接为主体则可判断为列表页。本发明通过模仿人在观察Web页面时候的处理方式,提高了列表页收集的速度和准确度,从而便于及时准确地对网站上变化的内容进行收集。
主 权 项:1.一种基于视觉的列表页识别方法,包括以下步骤: A、基于浏览器的下载,获取网页的Dom树; B、进行Html分块,即按照视觉进行分块; C、Html主体区域的识别,以找到主要的区域; D、列表页模式识别,通过模式识别判断是否是列表页; E、分析链接,获取候选链接,找到必要的链接; F、获取到新链接时,返回执行步骤A。
关 键 词:列表 判断 视觉 处理方式 主体区域 准确度 速度和 页识别 左右边 收集 分块 链接 网站 页脚 页眉 一种 字号 字体 模仿 网页 忽略 识别 获取 连接 观察 准确 进行 找到 变化 完成
IPC专利分类号:G06F17/30(20060101)
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...