拒绝Scrapy CrawalSpider中的URL序列



我有一个抓取社交网站的蜘蛛。我希望它拒绝包含"/products", "/collections"等。这是我的LinkExtractor规则

rules = (
Rule(LinkExtractor(allow_domains=allowed_domains),
callback='parse_page', process_links='process_links', follow=True),
)

我已经检查了许多解决方案,但我不能在我的脚本中使用它们。

这应该可以工作:

rules = (
Rule(LinkExtractor(allow_domains=allowed_domains, deny=('/products/*','/collections/*', )),
callback='parse_page', process_links='process_links', follow=True),
)

你可以在scrapy文档

中看到一个例子

最新更新