专利详细信息
文献类型:专利
专利类型:发明专利
是否失效:否
是否授权:否
申 请 号:CN201310040088.5
申 请 日:20130201
申 请 人:北京英富森信息技术有限公司
申请人地址:100190 北京市海淀区中关村东路66号一号楼世纪科贸大厦B座2509室
公 开 日:20140806
公 开 号:CN103970787A
语 种:中文
摘 要:本发明涉及一种增量更新与爬取技术,包括:判断待爬取网页内容的UR是否为静态页面的链接地址;当待爬取网页内容的URL为静态页面的链接地址时,判断所述URL是否爬取过,是则用所述URL替换已存储的URL;否则,根据爬取日期创建年/月/日/URL链接地址的文件夹,将待爬取网页的内容存储到所述文件夹中。本发明通过每次获取待爬取网页的URL时,判断所述URL是属于静态页面的还是动态页面的链接地址。如果是静态页面的,则判断所述URL是否已经爬取过,如已经爬取过则不进行爬取,直接将已经爬取过的URL替换成现有的链接地址存储,实现了静态页面的增量更新存储的要求,从而减少爬虫系统更新页面的工作量,提升了页面的新鲜度。
主 权 项:1.一种增量更新与爬取技术,其特征在于,包括以下步骤:判断待爬取网页内容的URL链接地址是否为静态页面的链接地址;当所述待爬取网页内容的URL链接地址为静态页面的链接地址时,判断所述待爬取网页内容的URL链接地址是否爬取过,是则找到所述静态页面的存储路径,用所述待爬取网页的当前URL链接地址替换已存储的URL链接地址;否则,根据爬取日期创建年/月/日/URL链接地址的文件夹,将所述待爬取网页的内容存储到所述文件夹中,用所述待爬取网页的当前URL链接地址替换已存储的URL链接地址;当所述待爬取网页内容的URL链接地址为动态页面的链接地址时,根据爬取日期创建年/月/日/URL链接地址的文件夹,将所述待爬取网页的内容存储到所述文件夹中,用所述待爬取网页的当前URL链接地址替换已存储的URL链接地址。
关 键 词:静态页 存储 文件夹 网页内容 增量更新 爬虫系统 动态页 新鲜度 工作量
IPC专利分类号:G06F17/30(20060101)
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...