当禁止robots.txt中的目录时,我应该使用尾随斜杠吗?



我想禁止抓取robots.txt中的目录/acct,我应该使用哪个规则?

Disallow: /acctDisallow: /acct/

acct包含子目录和文件。尾随斜杠的效果是什么?

由于robots.txt规则都是"规则,你提议的两个规则都不允许以下内容:

  • https://example.com/acct/
  • https://example.com/acct/foo
  • https://example.com/acct/bar

但是,规则只允许不带尾斜杠的以下字符:

  • https://example.com/acct
  • https://example.com/acct.html
  • https://example.com/acctbar

Disallow: /acct/通常更好,因为没有不允许意外url的风险。但是,它不能阻止/acct的抓取。

在大多数情况下,web服务器重定向目录url,不使用尾斜杠来添加尾斜杠。很可能在您的服务器上,https://example.com/acct重定向到https://example.com/acct/。如果是这种情况,通常可以允许机器人抓取没有尾斜杠的/acct并查看重定向。它们将被阻止爬取重定向的目标。

相关内容

最新更新