小贝子编程

拒绝Scrapy CrawalSpider中的URL序列

本文关键字：URL 序列中的 CrawalSpider Scrapy 拒绝 python scrapy
更新时间 : 2024-01-19
英文 : Deny URL sequence in Scrapy CrawalSpider

我有一个抓取社交网站的蜘蛛。我希望它拒绝包含"/products"， "/collections"等。这是我的LinkExtractor规则

rules = (
Rule(LinkExtractor(allow_domains=allowed_domains),
callback='parse_page', process_links='process_links', follow=True),
)

我已经检查了许多解决方案，但我不能在我的脚本中使用它们。

这应该可以工作:

rules = (
Rule(LinkExtractor(allow_domains=allowed_domains, deny=('/products/*','/collections/*', )),
callback='parse_page', process_links='process_links', follow=True),
)

你可以在scrapy文档

中看到一个例子

最新更新

如何在不使用矢量的情况下调整指针的动态数组的大小?
在Hugo中将类似书籍的帖子拆分为多个页面
Django：如何创建"Published"和"Last edited"字段？
Textarea Label in Form: Error: Label元素的for属性的值必须是一个非隐藏表单控件的I
如何在没有源文件的情况下使用XSL创建XML
通过指针在实例上实现类型的调用函数
在批处理脚本中替换而不是添加前缀
如果类没有初始化，c++编译器会生成一个defctor吗?
在我的代码中没有得到任何方程的答案，我的按钮进入我的字段
vsto Outlook插件在Outlook 2016和Office 365中的行为不同
npm install不会在我的React项目中安装任何node模块
用两次检查遍历两个列表
将图像转换为RGB格式的文本文件，格式为三逗号分隔
我正试图找到一种方法将TimeSpan变量转换为秒的整数量
FCM云消息传递验证令牌
C多重间接
显示数组中元素的倒计时。setInterval 不会导致延迟。最后一个元素立即显示
sveltekit:等待来自+服务器的数据.t加载函数
JQuery是:检查每次点击返回两个值
RxJS中具有共享结果的请求队列
Beautifulsoup如何添加一些东西到列，如果元素没有显示
在Jekyll blog中按2D位置(距离)搜索
Robocopy在复制过程中向文件名添加日期
c -间接递归的用例
如何将日期对象转换为格式(DD-MM-YYYY)
如何从没有使用python硒链接的网站下载文件?
用错误处理循环捕获用户输入的最佳方法
如何使用内部连接在php发送值从下拉菜单到数据库的两个不同的表
我如何得到一个状态的IISreset - true，如果它是启动和false，如果它是停止
如何复制列标题"Testing"的列

拒绝Scrapy CrawalSpider中的URL序列

相关内容

最新更新

热门标签：