BingBot和百度蜘蛛不尊重机器人.txt

由于机器人淹没了我的网站，我的CPU使用率突然超过400%，我创建了一个robots.txt，如下所示，并将文件放在我的根目录中，例如"www.example.com/"：

User-agent: *
Disallow: /

现在谷歌尊重这个文件，在我的谷歌日志文件中没有更多的事情发生。然而BingBot&BaiduSpider仍然出现在我的日志中（并且数量充足）。

由于我的CPU使用量大幅增加；此外，bandwidth和我的主机提供商即将暂停我的帐户，我首先删除了我的所有页面（以防有恶意脚本），上传了干净的页面，通过.htaccess&然后创建了robots.txt文件。

我到处搜索以确认我做了正确的步骤（还没有尝试.htaccess中的"ReWrite"选项）。

有人能证实我所做的应该胜任这份工作吗？（自从我开始创业以来，我的CPU使用率在6天内下降到了120%，但至少屏蔽IP地址应该会将CPU使用率降低到我通常的5-10%）。

如果这些是Bingbot和Baiduspider的合法蜘蛛，那么它们都应该按照给定的方式尊重您的robots.txt文件。然而，如果这些文件以前已经被索引过，他们可能需要一段时间才能提取并开始对其采取行动——这里可能就是这样。

它不适用于这种情况，但应该注意的是，Baiduspider对robots.txt标准的解释在某些方面与其他主流机器人（即Googlebot）有点不同。例如，虽然标准将Disallow:记录上的URL路径定义为前缀，但Baiduspider将仅匹配整个目录/路径名称。当给出指令Disallow: /priv时，Googlebot将匹配URL http://example.com/private/，Baiduspider将不匹配。

参考：
http://www.baidu.com/search/robots_english.html

相关内容

最新更新

热门标签：