相关问题:机器人中的多个用户代理.txt
我正在某个网站上阅读一个机器人.txt文件,这对我来说似乎是矛盾的(但我不确定)。
User-agent: *
Disallow: /blah
Disallow: /bleh
...
...
...several more Disallows
User-agent: *
Allow: /
我知道您可以通过指定多个用户代理来排除某些机器人,但是这个文件似乎是在说所有机器人都不允许使用一堆文件,但也允许访问所有文件?还是我读错了。
这个机器人.txt是无效的,因为只有一个记录有User-agent: *
。如果我们修复它,我们有:
User-agent: *
Disallow: /blah
Disallow: /bleh
Allow: /
Allow
不是原始机器人.txt规范的一部分,因此并非所有解析器都能理解它(那些必须忽略该行)。
对于理解Allow
的解析器,这一行只是意味着:允许一切(其他)。但无论如何,这是默认设置,所以这个机器人.txt具有相同的含义:
User-agent: *
Disallow: /blah
Disallow: /bleh
含义:除了路径以 blah
或 bleh
开头的 URL 之外,所有内容都是允许的。
如果Allow
行位于Disallow
行之前,则某些分析器可能会忽略Disallow
行。但是,由于未指定Allow
,因此这可能因解析器而异。