如何使用robots.txt阻止机器人爬行分页



我的网站上有各种分页,我想停止谷歌和其他搜索引擎对我的分页索引进行爬网。

已爬网页面示例:

http://www.mydomain.com/explore/recently-updated/index/12

我如何使用robots.txt拒绝机器人对任何包含/index/的页面进行爬网?

Disallow: /*?page=
Disallow: /*&page=

我相信,如果您在根web目录中创建robots.txt文件,并使用以下内容:

User-agent: *
Disallow: /explore/recently-updated/index/

尝试一下,然后使用某人(可能是谷歌的)机器人检查器来确保它被阻止。

最新更新