如果网站由于机器人而无法抓取,请获取响应.txt



我正在尝试抓取用户定义的网站,但无法抓取机器人.txt阻止抓取的网站。这很好,但我想得到响应,我可以向用户显示"您输入的网站由于机器人而不允许抓取.txt"。

还有其他 3 种类型的预防,我得到了代码并相应地处理,但只有这个例外(即机器人预防.txt(我无法处理。因此,如果有任何方法可以处理这种情况并显示适当的错误消息,请告诉我。

我正在使用Python 3.5.2和Scrapy 1.5

你应该使用ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False

有关机器人中间件的更多信息:

此中间件过滤掉机器人禁止的请求.txt 排除标准。

为了确保Scrapy尊重机器人.txt请确保中间件是 已启用,并且启用了ROBOTSTXT_OBEY设置。

如果 Request.meta dont_obey_robotstxt键设置为 True,则请求 即使启用了ROBOTSTXT_OBEY,此中间件也会忽略。

最新更新