多个用户代理:*在机器人.txt中



相关问题:机器人中的多个用户代理.txt

我正在某个网站上阅读一个机器人.txt文件,这对我来说似乎是矛盾的(但我不确定)。

User-agent: *
Disallow: /blah
Disallow: /bleh
...
... 
...several more Disallows
User-agent: *
Allow: /

我知道您可以通过指定多个用户代理来排除某些机器人,但是这个文件似乎是在说所有机器人都不允许使用一堆文件,但也允许访问所有文件?还是我读错了。

这个机器人.txt是无效的,因为只有一个记录有User-agent: *。如果我们修复它,我们有:

User-agent: *
Disallow: /blah
Disallow: /bleh
Allow: /

Allow不是原始机器人.txt规范的一部分,因此并非所有解析器都能理解它(那些必须忽略该行)。

对于理解Allow的解析器,这一行只是意味着:允许一切(其他)。但无论如何,这是默认设置,所以这个机器人.txt具有相同的含义:

User-agent: *
Disallow: /blah
Disallow: /bleh

含义:除了路径以 blahbleh 开头的 URL 之外,所有内容都是允许的。

如果Allow行位于Disallow之前,则某些分析器可能会忽略Disallow行。但是,由于未指定Allow,因此这可能因解析器而异。

最新更新