学习永不停止
我们一起努力吧!

WordPress修复[轻微]发现robots.txt文件的360漏洞

简考题库免费下载

很多人会遇过“[轻微]发现robots.txt文件”的360安全评分漏洞提示。在最初的时候,跟大家一样都认为“360的网站检测太过苛刻”,但随之会觉得很有必要。我们知道, 网站放置robots.txt的目的就是让搜索蜘蛛们知道搜索内容的范围,比方说,网站后台的放置路径非常敏感,因为这会成为HACK的攻击目标,可是,它却放置在robots.txt以告诉搜索引擎无须收录。因此,robots.txt确实涉及到了网站的安全危害。

那么如此处理360所发现的robots.txt漏洞呢?

其实360安全后台也告知了漏洞的修复方案,只是有很多人并不理解。因此博主结合其中的理解在这里分享几种最常见的处理方法。

第一种修复方法:

将敏感的文件和目录移到另一个隔离的子目录,以便将这个目录排除在Web Robot搜索之外。举例来说,当假设我们后台目录是 /admin/,隐藏的写法则应该是这样:

User-agent: *
Disallow: /ad
Disallow: /ad

从上面可以看出,将目录缩写可以避免HACK顺利地获取网站的敏感路径,并且越短越好,这样搜索引擎会根据以“ad”开头的文件判断搜索或不搜索。当然,就刚才的后台路径名称“admin”,就算你写了一个”ad”,但别人还是可以猜测出完整的名称“admin”,所以我们进行网站设计时,最好将默认的目录名进行修改,比如成“ki2hamin”、“bloadmin”、“admin99A88”、“788ad4647”之类的。

第二种修复方法:

对非蜘蛛抓取 robots.txt 行为一律返回403,其表达的意思是:robots.txt 只针对搜索蜘蛛开放。要想实现这种效果并不难,只要在 Nginx 配置中加入如下代码即可:

#如果请求的是robots.txt,并且匹配到了蜘蛛,则返回403
location = /robots.txt { 
    if ($http_user_agent !~* "spider|bot|Python-urllib|pycurl") {
        return 403;
    }
}

但这种方法不适合WINDOWS虚拟主机的用户。

第三种修复方法:

采用目录跳转的方法。方案是:后台的根目录再做一个首页文件,然后将其加入代码跳转到真正的首页文件.

比如:通过设置优先读取index格式的顺序,写一个index.html文件, 跳转到真正起作用的index.php,同时,我们还要在index.html<head>中加入类似以下的代码:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">,

加入后,搜索引擎便不会继续到该目录下的其他页面了,通过正确的书写,完全可以达到robots.txt中的“Disallow: /admin”效果。

下面,咱们解析一下”NOINDEX””NOFOLLOW”等命令所表达的意义。

首先看”NOINDEX”,其表示拒绝搜索蜘蛛索引本页,但可跟踪该页上的链接;

跟着是”NOFOLLOW”,其表示表示拒绝搜索引擎跟踪本页链接,但可索引本页。

当然,还有“NOARCHIVE”命令同样可以加入其中,从而告诉Google不要保存含此标签的网页的快照。

为了让大家更容易理解这几个命令的用法,我们下面再举例说明。

当我们想拦截百度蜘蛛爬取网页,但允许其他搜索引擎收录,应该在index.html<head>中写成这样:

<META NAME="baiduspider" CONTENT="NOINDEX, NOFOLLOW">

当我们想允许搜索引擎收录自己的网页,却不想它们收录网页上的图片,则要写成这样:

<META NAME="ROBOTS" CONTENT="NOIMAGEINDEX">

其他方法

如果自己的是linux+apache服务器或虚拟主机, 通过.htaccess文件限制也是一个不错的方法。这里就不详细介绍了。

未经允许不得转载:http://jdks100.com/风语守望_博客 » WordPress修复[轻微]发现robots.txt文件的360漏洞


分享到:更多 ()
关注“公众平台”:     资源分享QQ群(517095212):

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  • 5 + 2 = ?

风语守望_博客,共同学习,一起成长!

网站首页联系我们
防复制