登录    注册    忘记密码

专利详细信息

一种增量更新与爬取技术       

文献类型:专利

专利类型:发明专利

是否失效:

是否授权:

申 请 号:CN201310040088.5

申 请 日:20130201

发 明 人:尹科

申 请 人:北京英富森信息技术有限公司

申请人地址:100190 北京市海淀区中关村东路66号一号楼世纪科贸大厦B座2509室

公 开 日:20140806

公 开 号:CN103970787A

语  种:中文

摘  要:本发明涉及一种增量更新与爬取技术,包括:判断待爬取网页内容的UR是否为静态页面的链接地址;当待爬取网页内容的URL为静态页面的链接地址时,判断所述URL是否爬取过,是则用所述URL替换已存储的URL;否则,根据爬取日期创建年/月/日/URL链接地址的文件夹,将待爬取网页的内容存储到所述文件夹中。本发明通过每次获取待爬取网页的URL时,判断所述URL是属于静态页面的还是动态页面的链接地址。如果是静态页面的,则判断所述URL是否已经爬取过,如已经爬取过则不进行爬取,直接将已经爬取过的URL替换成现有的链接地址存储,实现了静态页面的增量更新存储的要求,从而减少爬虫系统更新页面的工作量,提升了页面的新鲜度。

主 权 项:1.一种增量更新与爬取技术,其特征在于,包括以下步骤:判断待爬取网页内容的URL链接地址是否为静态页面的链接地址;当所述待爬取网页内容的URL链接地址为静态页面的链接地址时,判断所述待爬取网页内容的URL链接地址是否爬取过,是则找到所述静态页面的存储路径,用所述待爬取网页的当前URL链接地址替换已存储的URL链接地址;否则,根据爬取日期创建年/月/日/URL链接地址的文件夹,将所述待爬取网页的内容存储到所述文件夹中,用所述待爬取网页的当前URL链接地址替换已存储的URL链接地址;当所述待爬取网页内容的URL链接地址为动态页面的链接地址时,根据爬取日期创建年/月/日/URL链接地址的文件夹,将所述待爬取网页的内容存储到所述文件夹中,用所述待爬取网页的当前URL链接地址替换已存储的URL链接地址。

关 键 词:静态页  存储  文件夹 网页内容 增量更新  爬虫系统 动态页  新鲜度 工作量  

IPC专利分类号:G06F17/30(20060101)

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心