BaiduSpider升级到3.0,抓取速度提升80%,你感受到了吗?

BaiduSpider升级到3.0,抓取速度提升80% Baidu Spider上一次升级还要追溯到2010年。 那个时候,中国互联网资源急剧扩张,从百亿扩大到千亿规模,因而spider系统进行了重构,从单机互联转变为分布式计算系统。 但是有一个很大的缺点:延时严重! 而此次重构是
BaiduSpider升级到3.0,抓取速度提升80%

Baidu Spider上一次升级还要追溯到2010年。

那个时候,中国互联网资源急剧扩张,从百亿扩大到千亿规模,因而spider系统进行了重构,从单机互联转变为分布式计算系统。

但是有一个很大的缺点:延时严重!

而此次重构是把当前离线、全量计算为主的系统,改造成实时、增量计算的全实时调度系统,万亿规模的数据进行实时读写,可以收录90%的网页,速度提升80%!

一张图以蔽之:

BaiduSpider升级到3.0,抓取速度提升80%

一、链接发现方面

如今sipder每天发现的新链接在500亿左右的量级,而在百度站长平台提交链接是其中最为高效的,特此,工程师提醒站长不要过度提交链接,尤其是低质链接,这样才能达到更好更及时的收录效果。

二、链接抓取方面

策略上,开发了更强大的机器学习模型,来进行链接的质量预测,对库中所有的链接进行全局排序,对有价值链接的召回率提高95%!

架构上,计算性能的强劲提升,对每天新增的数百亿模块的链接,完成实时计算,延时不到1秒;开发了更强大的存储系统,面对万亿规模的数据做到实时读写。

三、时效性页面方面

中长尾站的福音!针对时效性资源,从原来的优先对新浪、网易等大新闻站进行抓取,扩大到覆盖全网的新闻、博客、论坛等站点进行快速抓取,大小站都能优待。

打破老的平稳抓取模型,采用按需抓取机制,对有时效性新资源,做到秒级抓取。

目前,每天收录的时效性资源规模,扩大到原来的3倍,达到近1亿量级!

四、死链方面

全新的死链识别模型,能识别各种协议死链、内容死链、跳转死链等低质网页。

其中无效低质网页(如被黑),通过百度站长平台提交,可加快检索屏蔽的过程。

五、建库方面

索引展现时效性提升,原来是10天左右,现在提升40%~80%不等!

最后总结一下原文中的植入广告:

Spider3.0时代

站长平台链接提交工具,可以让抓取快上加快!

站长平台死链提交工具,可以让检索屏蔽过程快上加快!

请问,你的网站验证了吗?

来源:百度站长平台公众微信号


本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除!

相关文档推荐

最近想把一个网站改造成https访问,但是一些都做好了,去百度站长平台认证https,结果怎么提交都是出现请将您的http站点301重定向到https站点,在百度站长社区提问也没有人回答,最后只能自己摸索。后面找到了原因:原来百度的https认证是严格遵守301重定向
随着pc端与移动端网站的融合,原有索引量数据的展现逻辑已经不足以满足用户的需求, 3月中旬 特别对移动端的site算法进行了升级,并已正式上线! 1、移动端增加site语法卡片,直观展示网站在移动端的索引量; 2、移动端site语法与站长平台的索引量工具打平,
以下是百度官方的信息: 因百度对时效性内容识别技术升级,原独立新闻源数据库的形式已不再适合使用,故取消新闻源数据库。原新闻源库中的最优质站点将邀请入驻站长平台VIP俱乐部,站点有机会优先展现在时效性检索结果中,同时享受VIP俱乐部提供的更多服务;
从最近几周收到的提问看,大家对死链越来越关注,毕竟死链直接关系到网站的抓取收录和流量转化。于是我们整合了学院之前的内容,又专门对 Baiduspider 工程师进行了咨询,给大家一个完整的系列答复。 问: robots 屏蔽对阻止百度抓取死链是否有效 答:当然有
在日常工作、生活中,及时了解政府资讯成了人们同政府部门沟通、寻求政府帮助的重要技能。同时,对于行政部门而言,精准地上传下达政务信息也关系到政务的切实落地。 为政之弊,在于雍蔽,李世民曾精辟指出了政务信息畅通的重要性。 为了构筑政府与民众间的
尊敬的各位站长,您好: 为提升搜索用户体验、建设健康稳定的移动搜索生态,百度搜索将针对移动搜索结果页广告过多、影响用户体验的页面,进行策略调整。 在此提醒各位站长: 请尽快对广告过多页面进行整改, 优化页面广告布局,控制每屏广告的占比率,以保