我的网站上有各种分页,我想停止谷歌和其他搜索引擎对我的分页索引进行爬网。
已爬网页面示例:
http://www.mydomain.com/explore/recently-updated/index/12
我如何使用robots.txt拒绝机器人对任何包含/index/的页面进行爬网?
Disallow: /*?page=
Disallow: /*&page=
我相信,如果您在根web目录中创建robots.txt文件,并使用以下内容:
User-agent: *
Disallow: /explore/recently-updated/index/
尝试一下,然后使用某人(可能是谷歌的)机器人检查器来确保它被阻止。