专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN201310040090.2
申 请 日:20130201
申 请 人:北京英富森信息技术有限公司
申请人地址:100190 北京市海淀区中关村东路66号一号楼世纪科贸大厦B座2509室
公 开 日:20140806
公 开 号:CN103970788A
语 种:中文
摘 要:本发明涉及技术领域,具体涉及一种基于网页爬取的爬虫技术,初始化URL链接地址后,包括:1)均衡分配爬虫线程从给定的入口起在运行队列读取排列在队首的URL链接地址;2)判断所述URL链接地址是否存在,是则停止爬取,否则,爬取所述URL链接地址放入完成队列;3)对放入所述完成队列的所述URL链接地址对应的网页进行提取;4)对所述提取的网页中的URL链接地址过滤,留取有效URL链接地址写入运行队列,返回步骤1)重复以上步骤。本发明基于用户设定的对象,根据用户创建的任务,从互联网爬取对应的资源、重写URL并进行存储,实现有针对性的对互联网信息进行采集;同时,能够实现多机并行爬取、多任务调度、断点续抓、分布式爬虫管理以及爬虫控制。
主 权 项:1.一种基于网页爬取的爬虫技术,其特征在于,初始化URL链接地址后,包括以下步骤:1)均衡分配爬虫线程从给定的入口起在运行队列读取排列在队首的URL链接地址;2)判断所述URL链接地址是否存在,是则停止爬取,否则,爬取所述URL链接地址放入完成队列;3)对放入所述完成队列的所述URL链接地址对应的网页进行提取;4)对所述提取的网页中的URL链接地址过滤,留取有效URL链接地址写入运行队列,返回步骤1)重复以上步骤。
关 键 词:爬虫 队列 互联网信息 地址过滤 根据用户 均衡分配 任务调度 初始化 断点 队首 多机 线程 重写 存储 排列 采集 互联网 针对性 停止 管理
IPC专利分类号:G06F17/30(20060101)
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...