报废ROBOSTXT_OBEY在所有情况下都不起作用



因此,我设置了一个Scrapy项目,并启用了ROBOSTXT_OBEY中间件,该中间件在以下格式的robot.txt文件上运行良好:

用户代理:*不允许:/tools/

但是,当同一个蜘蛛在一个网站上使用以下格式的robots.txt文件时,它就不起作用了:

用户代理:*不允许:*?下一个

这导致仍在爬网的页面应该被robots.txt阻止,顺便说一句,robots..txt文件的标记完全有效。

只是想知道是否有人能解释为什么会这样?

Scrapy使用不支持通配符的Python标准robots.txt解析器。

最新更新