为什么像CNN这样的大型网站正在使用机器人.txt而不是更好的htaccess



在我看来是不明智的。

例如,检查这个:

http://edition.cnn.com/robots.txt
http://www.bbc.co.uk/robots.txt
http://www.guardian.co.uk/robots.txt

据此:

http://www.joomla.org/robots.txt

Joomla.org 尚未更改默认管理文件夹:D

例如,prestashp 页面有一个空白的机器人.txt文件,该文件并不完美,但至少在我看来更好:

http://www.prestashop.com/robots.txt

这些人是愚蠢的,还是他们认为知道他们的网络结构是什么样子是可以的?

为什么他们不使用htaccess来拒绝机器人等的访问?

问题是.htaccess无法直观地判断访问者是搜索引擎机器人。

大多数机器人会在用户代理字符串中标识自己,但有些机器人不会。

机器人.txt被所有希望索引网站的机器人访问,而不道德的机器人不会

  1. 将自己标识为机器人
  2. 注意机器人.txt(否则他们会故意不服从它)。

最新更新