我有一个抓取社交网站的蜘蛛。我希望它拒绝包含"/products", "/collections"等。这是我的LinkExtractor规则
rules = (
Rule(LinkExtractor(allow_domains=allowed_domains),
callback='parse_page', process_links='process_links', follow=True),
)
我已经检查了许多解决方案,但我不能在我的脚本中使用它们。
这应该可以工作:
rules = (
Rule(LinkExtractor(allow_domains=allowed_domains, deny=('/products/*','/collections/*', )),
callback='parse_page', process_links='process_links', follow=True),
)
你可以在scrapy文档
中看到一个例子