BingBot和百度蜘蛛不尊重机器人.txt



由于机器人淹没了我的网站,我的CPU使用率突然超过400%,我创建了一个robots.txt,如下所示,并将文件放在我的根目录中,例如"www.example.com/":

User-agent: *
Disallow: /

现在谷歌尊重这个文件,在我的谷歌日志文件中没有更多的事情发生。然而BingBot&BaiduSpider仍然出现在我的日志中(并且数量充足)。

由于我的CPU使用量大幅增加;此外,bandwidth和我的主机提供商即将暂停我的帐户,我首先删除了我的所有页面(以防有恶意脚本),上传了干净的页面,通过.htaccess&然后创建了robots.txt文件。

我到处搜索以确认我做了正确的步骤(还没有尝试.htaccess中的"ReWrite"选项)。

有人能证实我所做的应该胜任这份工作吗?(自从我开始创业以来,我的CPU使用率在6天内下降到了120%,但至少屏蔽IP地址应该会将CPU使用率降低到我通常的5-10%)。

如果这些是Bingbot和Baiduspider的合法蜘蛛,那么它们都应该按照给定的方式尊重您的robots.txt文件。然而,如果这些文件以前已经被索引过,他们可能需要一段时间才能提取并开始对其采取行动——这里可能就是这样。

它不适用于这种情况,但应该注意的是,Baiduspider对robots.txt标准的解释在某些方面与其他主流机器人(即Googlebot)有点不同。例如,虽然标准将Disallow:记录上的URL路径定义为前缀,但Baiduspider将仅匹配整个目录/路径名称。当给出指令Disallow: /priv时,Googlebot将匹配URL http://example.com/private/,Baiduspider将不匹配。

参考:
http://www.baidu.com/search/robots_english.html

最新更新