BaiDuSpider百度蜘蛛占用流量,robots.txt设置
注推火网以下BaiDuSpider等于百度蜘蛛、Googlebot等于google蜘蛛、Sogou Spider等于搜狗蜘蛛
一、问题
因某些原因,搜索引擎蜘蛛抓取网站占用很大流量,如图
网站访问日志也可看见很多蜘蛛爬行记录。
如果是正常的搜索引擎蜘蛛访问,不建议对蜘蛛进行禁止,否则网站在百度等搜索引擎中的收录和排名将会丢失,造成客户流失等损失。可以优先考虑升级虚拟主机型号以获得更多的流量或升级为云服务器(不限流量)。
二、认识、学习
我们知道,搜索引擎都遵守互联网robots协议,可通过robots.txt来进行限制。先对robots.txt一些实例说明,然后根据上面网站情况进行规则设置,通过上面截图可以看出BaiDuSpider占用流量非常大,在网站跟目录下面建立一个robots.txt文件。
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent:
Disallow: /
例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
User-agent:
Allow:
例3. 禁止某个搜索引擎的访问(禁止BaiDuSpider)
User-agent: BaiDuSpider
Disallow: /
例4. 允许某个搜索引擎的访问
User-agent: Baiduspider
allow:/
例5.禁止二个目录搜索引擎访问
User-agent:
Disallow: /adm/
Disallow: /stall/
例6. 仅允许Baiduspider以及Googlebot访问
User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent:
Disallow: /
例7. 禁止百度搜索引擎抓取你网站上的所有图片
User-agent: Baiduspider
Disallow: /.jpg$
Disallow: /.jpeg$
Disallow: /.gif$
Disallow: /.png$
Disallow: /.bmp$
三、 问题解决(规则设置)
根据以上实例,经过分析网站日志,主要是百度抓取图片占用了流量,他还有两个目录也不希望搜索引擎抓取,设置规则如下解决
User-agent:
Disallow: /adm/
Disallow: /stall/
User-agent: Baiduspider
Disallow: /.jpg$
Disallow: /.jpeg$
Disallow: /.gif$
Disallow: /.png$
Disallow: /.bmp$
因为搜索引擎索引数据库的更新需要时间。虽然蜘蛛已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。也就是说设置限制之后日志还会看见蜘蛛爬行,逐渐会降低抓取直到完全生效,这种问题会持续一段时间。如果您需要尽快屏蔽,访问推火网以下帮助中心进行投诉,搜索引擎就会较快处理。
如果设置后无效(或部分蜘蛛不遵守robots协议,可以用使用伪静态规则拦截蜘蛛访问 http://.west./faq/list.asp?unid=662 )
四、Baiduspider抓取次数太多造成的带宽堵塞,影响网站正常访问如何解决?
访问百度站长工具http://zhanzhang.baidu./ ,注册用户名登录,先添加网站通过验证。
然后到网页抓取》抓取频次》当前抓取频次过大如何解决?提示内容
您可以按照如下方法依次进行排查及解决频次过大问题
1、如果您觉得Baiduspider 抓取了您认为的无价值链接, 请更新网站robots.txt进行屏蔽抓取,然后到robots工具页面操作生效。
2、如果Baiduspider的抓取影响了您网站的正常访问,请到抓取频次上限调整页面进行抓取频次上限下调。
3、若以上方法均不能解决问题,请到反馈中心反馈
建议采用第二个方法,调整百度抓取频次上限。推火网以下截图为“频次上限调整页面”,如影响访问,可把值适当调整小。
1.png
五、 知识加强
为更详细了解蜘蛛爬行原理和robots.txt写法,建议详细阅读推火网以下标准资料
其他办法 使用伪静态规则拦截蜘蛛访问 http://.west./faq/list.asp?unid=662
BaiDuSpider帮助中心 http://.baidu./search/spider.html
Googlebot帮助中心 http://support.google./webmasters/b/answer.py?hl=zh-Hans&answer=182072
Sogou Spider帮助中心 http://.sogou./docs/help/webmasters.htm
Robots.txt 详细介绍http://baike.baidu./view/1280732.htm
baidu提供标准robots.txt写法http://.baidu./search/robots.html
如果按流程禁止了百度蜘蛛访问仍有百度蜘蛛访问的,请直接反馈给百度公司调查处理
http://tousu.baidu./webmaster/suggest#1
http://zhanzhang.baidu./feedback/dex
推火专家西部数码
网站seo
- 洛扎企业官网搭建公司:提升品牌形象与网络实
- 北京百度快照排名怎么把网站排名在百度首页
- 湖南seo网站排名关键词优化如何提升销售额和销
- 打造企业形象的利器:金塔企业官网搭建公司
- 提升平舆百度快照排名的全面指南
- 浙江企业网站优化怎样做网站排名
- 云南整站优化:提升网站价值的关键
- 西藏新手做seo怎么做发展潜力如何
- 提升扬州网站排名优化的有效策略
- 中山建站公司有哪些:全面解析与推荐
- 长寿百度关键词SEO:提升你的网站排名技巧
- 寻找优质服务的秘诀:库车会SEO的网站建设公司
- 兴义企业网站优化:提升网站可见性的策略与方
- 威海优化关键词排名推广:提升您网站流量的有
- 松原建站公司:助力企业数字化转型的最佳选择
- 罗甸企业官网搭建公司:助力企业数字化转型