登录    注册    忘记密码

专利详细信息

一种基于网页爬取的爬虫技术       

文献类型:专利

专利类型:发明专利

是否失效:

是否授权:

申 请 号:CN201310040090.2

申 请 日:20130201

发 明 人:尹科

申 请 人:北京英富森信息技术有限公司

申请人地址:100190 北京市海淀区中关村东路66号一号楼世纪科贸大厦B座2509室

公 开 日:20140806

公 开 号:CN103970788A

语  种:中文

摘  要:本发明涉及技术领域,具体涉及一种基于网页爬取的爬虫技术,初始化URL链接地址后,包括:1)均衡分配爬虫线程从给定的入口起在运行队列读取排列在队首的URL链接地址;2)判断所述URL链接地址是否存在,是则停止爬取,否则,爬取所述URL链接地址放入完成队列;3)对放入所述完成队列的所述URL链接地址对应的网页进行提取;4)对所述提取的网页中的URL链接地址过滤,留取有效URL链接地址写入运行队列,返回步骤1)重复以上步骤。本发明基于用户设定的对象,根据用户创建的任务,从互联网爬取对应的资源、重写URL并进行存储,实现有针对性的对互联网信息进行采集;同时,能够实现多机并行爬取、多任务调度、断点续抓、分布式爬虫管理以及爬虫控制。

主 权 项:1.一种基于网页爬取的爬虫技术,其特征在于,初始化URL链接地址后,包括以下步骤:1)均衡分配爬虫线程从给定的入口起在运行队列读取排列在队首的URL链接地址;2)判断所述URL链接地址是否存在,是则停止爬取,否则,爬取所述URL链接地址放入完成队列;3)对放入所述完成队列的所述URL链接地址对应的网页进行提取;4)对所述提取的网页中的URL链接地址过滤,留取有效URL链接地址写入运行队列,返回步骤1)重复以上步骤。

关 键 词:爬虫 队列  互联网信息 地址过滤  根据用户  均衡分配  任务调度  初始化  断点 队首  多机 线程  重写 存储  排列  采集  互联网  针对性  停止  管理  

IPC专利分类号:G06F17/30(20060101)

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心