网络爬虫-机器人TXT不允许通配符



我在停止谷歌抓取一些导致错误的url时遇到了麻烦。

我想停止

  • /项目/123984932842/下载/pdf
  • /项目/123984932842/下载/zip

but allow

  • /项目/123984932842
  • /项目/123984932842/平

我试了project/*/download/pdf,但似乎不起作用。有人知道怎么做吗?

Disallow:行开头有/吗?

User-agent: googlebot
Disallow: /project/*/download/pdf

原始的 robots.txt规范没有定义任何通配符,但是Google(和其他一些公司)将它们添加到它们的解析器中。然而,我猜你根本不需要它们(正如Jim指出的那样,这是错误的)。下面的robots.txt(使用*通配符)应该完成这项工作:

User-agent: Googlebot
Disallow: /project/*/download

最新更新