由于机器人淹没了我的网站,我的CPU使用率突然超过400%,我创建了一个robots.txt,如下所示,并将文件放在我的根目录中,例如"www.example.com/":
User-agent: *
Disallow: /
现在谷歌尊重这个文件,在我的谷歌日志文件中没有更多的事情发生。然而BingBot&BaiduSpider仍然出现在我的日志中(并且数量充足)。
由于我的CPU使用量大幅增加;此外,bandwidth和我的主机提供商即将暂停我的帐户,我首先删除了我的所有页面(以防有恶意脚本),上传了干净的页面,通过.htaccess&然后创建了robots.txt文件。
我到处搜索以确认我做了正确的步骤(还没有尝试.htaccess中的"ReWrite"选项)。
有人能证实我所做的应该胜任这份工作吗?(自从我开始创业以来,我的CPU使用率在6天内下降到了120%,但至少屏蔽IP地址应该会将CPU使用率降低到我通常的5-10%)。
如果这些是Bingbot和Baiduspider的合法蜘蛛,那么它们都应该按照给定的方式尊重您的robots.txt文件。然而,如果这些文件以前已经被索引过,他们可能需要一段时间才能提取并开始对其采取行动——这里可能就是这样。
它不适用于这种情况,但应该注意的是,Baiduspider对robots.txt标准的解释在某些方面与其他主流机器人(即Googlebot)有点不同。例如,虽然标准将Disallow:
记录上的URL路径定义为前缀,但Baiduspider将仅匹配整个目录/路径名称。当给出指令Disallow: /priv
时,Googlebot将匹配URL http://example.com/private/
,Baiduspider将不匹配。
参考:
http://www.baidu.com/search/robots_english.html