小贝子编程

报废ROBOSTXT_OBEY在所有情况下都不起作用

因此，我设置了一个Scrapy项目，并启用了ROBOSTXT_OBEY中间件，该中间件在以下格式的robot.txt文件上运行良好：

用户代理：*不允许：/tools/

但是，当同一个蜘蛛在一个网站上使用以下格式的robots.txt文件时，它就不起作用了：

用户代理：*不允许：*？下一个

这导致仍在爬网的页面应该被robots.txt阻止，顺便说一句，robots..txt文件的标记完全有效。

只是想知道是否有人能解释为什么会这样？

Scrapy使用不支持通配符的Python标准robots.txt解析器。

最新更新