小贝子编程

如果网站由于机器人而无法抓取，请获取响应.txt

本文关键字：抓取获取 txt 响应网站机器人如果 python scrapy scrapyd
更新时间 : 2023-09-14
英文 : Get the response if site didn't crawl due to robots.txt

我正在尝试抓取用户定义的网站，但无法抓取机器人.txt阻止抓取的网站。这很好，但我想得到响应，我可以向用户显示"您输入的网站由于机器人而不允许抓取.txt"。

还有其他 3 种类型的预防，我得到了代码并相应地处理，但只有这个例外(即机器人预防.txt(我无法处理。因此，如果有任何方法可以处理这种情况并显示适当的错误消息，请告诉我。

我正在使用Python 3.5.2和Scrapy 1.5

你应该使用ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False

有关机器人中间件的更多信息：

此中间件过滤掉机器人禁止的请求.txt 排除标准。
为了确保Scrapy尊重机器人.txt请确保中间件是已启用，并且启用了ROBOTSTXT_OBEY设置。
如果 Request.meta dont_obey_robotstxt键设置为 True，则请求即使启用了ROBOTSTXT_OBEY，此中间件也会忽略。

如果网站由于机器人而无法抓取，请获取响应.txt

相关内容

最新更新

热门标签：