学习永不停止
我们一起努力吧!

robots.txt屏蔽整站的代码

阳江鼎阳抄数设计交流群

网站平常的维护过程中,难免会遇到各种各样的情况,比如旧域名301重定向后需将旧站的链接屏蔽不被蜘蛛抓取,否则就有可能被搜索引擎判定为镜像站,最终导致双双被降权甚至K站,得不偿失。

Robots协议称为爬虫协议、机器人协议,其最直接的作用就是通过Robots.txt文件告诉搜索引擎们哪些页面可以抓取,哪些页面不能抓取。那么,如果想将整站内容链接不再被蜘蛛们抓取,robots.txt应该如何写呢?

其实,我们可以借鉴一下“七牛云存储”的robots.txt屏蔽代码。在最初七牛的用户中,很多反映进行CDN加速会导致被百度处罚的情况,原因就是有镜像站的嫌疑,也因此,建立七牛空间时会被自动生成这样一个robots.txt文件,里面就是屏蔽整站的代码,写法类似如下:

# robots.txt generated at http://Jdks100.com
User-agent: Baiduspider
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: sogou spider
Disallow: /
User-agent: YodaoBot
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Bingbot
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: googlebot-image
Disallow: /
User-agent: googlebot-mobile
Disallow: /
User-agent: yahoo-blogs/v3.9
Disallow: /
User-agent: psbot
Disallow: /
User-agent: *
Disallow: /

【温馨提醒】:以上代码如果写入自己的旧站中,上传robots.txt后要通过在线的robots检测工具进行测试哦,确定无误才是最重要的!

未经允许不得转载:http://jdks100.com/风语守望_博客 » robots.txt屏蔽整站的代码


分享到:更多 ()
关注“公众平台”:     学习交流QQ群(185619299):

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  • 6 + 3 = ?

风语守望_博客,共同学习,一起成长!

网站首页联系我们
防复制