学习永不停止
我们一起努力吧!

百度蜘蛛如何读取抓取HTTPS网站内容

阳江鼎阳抄数设计交流群

https,全称:Hyper Text Transfer Protocol over Secure Socket Layer,是http网页安全升级版,其以SSL作为加密安全基础,大大减少原来http网页明文传输所带来的安全隐患。目前,百度已实现了全站https化,其也成为未来标准的象征。当然,除了搜索老大及其他知名网站实现https外,我们普通的站长大多在观望筹划中,甚至有小部分已实现或者在动工中,中,https普及化为迟不远了!

当然,跟博主一样对https了解不多的大有人在,比如就有“搜索蜘蛛能正常抓取加密后的https网站内容吗?”这样的疑问。因为不了解的人总觉得,既然网页经过SSL加密,那么蜘蛛同样会面对这个问题,爬行抓取不到真正的内容就存在可能了。早在2014年刚开始讨论这个变化趋势时,就有人提出了以下四种应对蜘蛛抓取的方法(据称当年来住百度,只是有站长对其进行了文字修减):

1,https页面若需要被百度收录,需制作匹配的http可访问版。

2,通过user-agent判断来访者,将Baiduspider定向到http页面;而普通用户则在搜索后被301重定向到https页面。

3,要遵循http相互链接的原则,http不能只为前页而制作,其他页面同样需要配备http版本。

4,一些加密无关紧要的内容,比如资讯,可以通过二级域名承载,而蜘蛛则直接抓取的内容都放置在二级域名上。

看看上述方法,心里难免会升起一种繁琐感。不过大家请放心,这是当年对收录https页面的处理方法,现在百度已对抓取https内容进行了升级,已实现无须额外工作即可被收录的效果。具体时间应该是从2015年5月25日已经开始了。大家的担心或者疑惑相信解开了吧?!

未经允许不得转载:http://jdks100.com/风语守望_博客 » 百度蜘蛛如何读取抓取HTTPS网站内容


分享到:更多 ()
关注“公众平台”:     学习交流QQ群(185619299):

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  • 8 + 1 = ?

风语守望_博客,共同学习,一起成长!

网站首页联系我们
防复制