在我看来是不明智的。
例如,检查这个:
http://edition.cnn.com/robots.txt
http://www.bbc.co.uk/robots.txt
http://www.guardian.co.uk/robots.txt
据此:
http://www.joomla.org/robots.txt
Joomla.org 尚未更改默认管理文件夹:D
例如,prestashp 页面有一个空白的机器人.txt文件,该文件并不完美,但至少在我看来更好:
http://www.prestashop.com/robots.txt
这些人是愚蠢的,还是他们认为知道他们的网络结构是什么样子是可以的?
为什么他们不使用htaccess来拒绝机器人等的访问?
问题是.htaccess
无法直观地判断访问者是搜索引擎机器人。
大多数机器人会在用户代理字符串中标识自己,但有些机器人不会。
机器人.txt被所有希望索引网站的机器人访问,而不道德的机器人不会
- 将自己标识为机器人
- 注意机器人.txt(否则他们会故意不服从它)。