我想禁止抓取robots.txt
中的目录/acct
,我应该使用哪个规则?
Disallow: /acct
或Disallow: /acct/
acct
包含子目录和文件。尾随斜杠的效果是什么?
由于robots.txt
规则都是"规则,你提议的两个规则都不允许以下内容:
https://example.com/acct/
https://example.com/acct/foo
https://example.com/acct/bar
但是,规则只允许不带尾斜杠的以下字符:
https://example.com/acct
https://example.com/acct.html
https://example.com/acctbar
Disallow: /acct/
通常更好,因为没有不允许意外url的风险。但是,它不能阻止/acct
的抓取。
在大多数情况下,web服务器重定向目录url,不使用尾斜杠来添加尾斜杠。很可能在您的服务器上,https://example.com/acct
重定向到https://example.com/acct/
。如果是这种情况,通常可以允许机器人抓取没有尾斜杠的/acct
并查看重定向。它们将被阻止爬取重定向的目标。