Scrapy使用不支持通配符的Python标准robots.txt解析器。
因此,我设置了一个Scrapy项目,并启用了ROBOSTXT_OBEY中间件,该中间件在以下格式的robot.txt文件上运行良好:
用户代理:*不允许:/tools/
但是,当同一个蜘蛛在一个网站上使用以下格式的robots.txt文件时,它就不起作用了:
用户代理:*不允许:*?下一个
这导致仍在爬网的页面应该被robots.txt阻止,顺便说一句,robots..txt文件的标记完全有效。
只是想知道是否有人能解释为什么会这样?