我应该考虑机器人吗.txt当 url 被重定向到其他域时



我想抓取 medium.com 自定义域上的某个网站。(例如,https://uber-developers.news/)

这些站点始终重定向到"medium.com",然后返回到站点。但是这里有一个问题,medium.com 的重定向网址被其机器人.txt所禁止。

这是重定向的方式。

  1. https://uber-developers.news/

  2. https://medium.com/m/global-identity?redirectUrl=https://uber-developers.news/

  3. https://uber-developers.news/?gi=e0f8caa9844c

问题出在第二个网址"https://medium.com/m/global-identity?redirectUrl=https://uber-developers.news/"上方,机器人不允许.txt

https://medium.com/robots.txt

User-Agent: *
Disallow: /m/
Disallow: /me/
Disallow: /@me$
Disallow: /@me/
Disallow: /*/*/edit
Allow: /_/
Allow: /_/api/users/*/meta
Allow: /_/api/users/*/profile/stream
Allow: /_/api/posts/*/responses
Allow: /_/api/posts/*/responsesStream
Allow: /_/api/posts/*/related
Sitemap: https://medium.com/sitemap/sitemap.xml

我应该考虑机器人.txt第二个网址吗?

感谢您的阅读。

robot.txt文件只是指示爬虫应该做什么,但它们,再见,绝不是,可以禁止爬虫做不同的事情。Medium所做的只会阻止礼貌和尊重的爬虫。

您需要按照重定向进行操作(例如,如果您使用的是 CURL,则有一个选项),您将到达所需的页面。但是,如果您大规模地这样做,Medium 可能不会对此感到高兴。

最新更新