小贝子编程

为什么像CNN这样的大型网站正在使用机器人.txt而不是更好的htaccess

在我看来是不明智的。

例如，检查这个：

http://edition.cnn.com/robots.txt
http://www.bbc.co.uk/robots.txt
http://www.guardian.co.uk/robots.txt

据此：

http://www.joomla.org/robots.txt

Joomla.org 尚未更改默认管理文件夹:D

例如，prestashp 页面有一个空白的机器人.txt文件，该文件并不完美，但至少在我看来更好：

http://www.prestashop.com/robots.txt

这些人是愚蠢的，还是他们认为知道他们的网络结构是什么样子是可以的？

为什么他们不使用htaccess来拒绝机器人等的访问？

问题是.htaccess无法直观地判断访问者是搜索引擎机器人。

大多数机器人会在用户代理字符串中标识自己，但有些机器人不会。

机器人.txt被所有希望索引网站的机器人访问，而不道德的机器人不会

相关内容