我应该考虑机器人吗.txt当 url 被重定向到其他域时

我想抓取 medium.com 自定义域上的某个网站。（例如，https://uber-developers.news/）

这些站点始终重定向到"medium.com"，然后返回到站点。但是这里有一个问题，medium.com 的重定向网址被其机器人.txt所禁止。

这是重定向的方式。

https://uber-developers.news/
https://medium.com/m/global-identity?redirectUrl=https://uber-developers.news/
https://uber-developers.news/?gi=e0f8caa9844c

问题出在第二个网址"https://medium.com/m/global-identity?redirectUrl=https://uber-developers.news/"上方，机器人不允许.txt

https://medium.com/robots.txt

User-Agent: *
Disallow: /m/
Disallow: /me/
Disallow: /@me$
Disallow: /@me/
Disallow: /*/*/edit
Allow: /_/
Allow: /_/api/users/*/meta
Allow: /_/api/users/*/profile/stream
Allow: /_/api/posts/*/responses
Allow: /_/api/posts/*/responsesStream
Allow: /_/api/posts/*/related
Sitemap: https://medium.com/sitemap/sitemap.xml

我应该考虑机器人.txt第二个网址吗？

感谢您的阅读。

robot.txt文件只是指示爬虫应该做什么，但它们，再见，绝不是，可以禁止爬虫做不同的事情。Medium所做的只会阻止礼貌和尊重的爬虫。

您需要按照重定向进行操作（例如，如果您使用的是 CURL，则有一个选项），您将到达所需的页面。但是，如果您大规模地这样做，Medium 可能不会对此感到高兴。

相关内容

最新更新

热门标签：