【官方说法】百度蜘蛛抓取流量暴增的原因

Spider对网站抓取数量突增往往给站点带来很大烦恼,纷纷找平台想要Baiduspider IP白名单,但实际上BaiduSpider IP会随时变化,所以并不敢公布出来,担心站长设置不及时影响抓取效果。百度是怎么计算分配抓取流量的呢?站点抓取流量暴增的原因有哪些呢? 总体
Spider对网站抓取数量突增往往给站点带来很大烦恼,纷纷找平台想要Baiduspider IP白名单,但实际上BaiduSpider IP会随时变化,所以并不敢公布出来,担心站长设置不及时影响抓取效果。百度是怎么计算分配抓取流量的呢?站点抓取流量暴增的原因有哪些呢?
 
总体来说,Baiduspider会根据站点规模、历史上网站每天新产出的链接数量、已抓取网页的综合质量打分等等,来综合计算抓取流量,同时兼顾站长在抓取频次工具里设置的、网站可承受的最大抓取值。
 
从目前追查过的抓取流量突增的case中,原因可以分为以下几种:
 
1,  Baiduspider发现站内JS代码较多,调用大量资源针对JS代码进行解析抓取
 
2,  百度其他部门(如商业、图片等)的spider在抓取,但流量没有控制好,sorry
 
3,  已抓取的链接,打分不够好,垃圾过多,导致spider重新抓取
 
4,  站点被攻击,有人仿冒百度爬虫
 
如果站长排除了自身问题、仿冒问题,确认BaiduSpider抓取流量过大的话,可以通过反馈中心来反馈,切记一定要提供详细的抓取日志截图。
本站部分内容来源互联网,如果有图片或者内容侵犯您的权益请联系我们删除!

相关文档推荐

反馈中心经常收到站长们对闭站保护的提问,很多问题值班童靴已经是强调了再强调的,学院君特整理了一篇最全答疑,有问题的站长们看这里: 1 、闭站保护的通过时间? 从提交申请到生效一天内。 2、闭站保护申请恢复,多久能恢复? 站点没有任何404页面等情况
官网保护工具自推出以来,受到广大站长们关注,后台申请数据量更是高达 20 多万,审核这么大量的需求词,审核员也发现了一些问题,希望再次给到站长们提醒,请拿好小本子记要点: 1 、官网保护的审核时间多久? 答:官网保护的审核周期是十五个工作日内;如
近期,MIP官方发布了MIP系列文件的全新v1版本,我们建议大家尽快完成升级。 一、 我是开发者,如何升级版本? 对于MIP页面开发者来说, 只需替换线上引用的MIP文件为v1版本 ,就可以完成升级。所有组件都已经升级到v1版本,可根据通配规则推断出引用地址。下
说到网站被劫持,很多站长并不陌生,可如何才能有效发现并避免被劫持,是很多网站头疼的问题,学院特邀社区版主以利,为大家分享网站被劫持解决方案。 一、什么是网站劫持 网站劫持 : 是指打开一个网址的时候,出现一个不属于网站范畴的广告,或者是跳转到某
江湖一直对百度判罚有种种猜测,现在,学院君整理了站长们最关心的几种情况,请专业技术工程师回答,这些情况是否会影响搜索对网站的质量判断 Q : 网站被镜像,是否会引起百度判罚? A :被镜像站点不会被百度判罚;百度有策略识别并判罚镜像站点,另可参考
最近收到不少站长反馈被镜像的问题,网站被镜像后,站点流量、关键词都会受到影响,是很多网站深恶痛绝的现象,站长通过禁止正文被粘贴、禁止镜像站 IP 都无法彻底杜绝被镜像现象。被镜像该如何维权,学院君整理以下投诉攻略: 1 、可通过域名、 TITLE 即轻