小贝子编程

刮擦蜘蛛，在队列中侦听种子网址的抓取

本文关键字：种子子网抓取队列 scrapy
更新时间 : 2023-09-08
英文 : Scrapy spider which listens on a queue for seed urls to crawl?

我有什么方法可以让 Scrapy 蜘蛛监听 SQS 队列（或其他）以抓取新的种子 URL？

在文档中找不到任何示例，所以认为有人可能知道这里。

提前谢谢。

编辑：

这也许start_requests正确的地方吗？

class MySpider(scrapy.Spider):
    name = 'example.com'
    allowed_domains = ['example.com']
    def start_requests(self):
        # read requests from queue here?
        while True:
            url = self._queue.get_url()
            yield scrapy.Request(url, self.parse)

重新执行Spider.start_requests()是动态生成请求以供蜘蛛处理的正确方法，无论这些请求来自何处（动态队列，本地文件等）。

顺便说一下，Scrapy 教程涵盖了这一点:)

最新更新

502坏网关与Nginx服务器托管.net核心项目
LG Hub Script Non-Functional
c -对齐检查在WebAssembly时，模拟XMM的内在?
我的多线程代码与c++不能正常工作
如何在SQL数据库行中存储一对多关系?
向b-tree索引更新具有相同值的列
在c++中，用引号和空格之间的键/值加载文件的最有效方式是什么?
Java多线程并发与并行
在启动画面中淡入和淡出图像
多个模型到一个manytomanyfield表
Javascript-如果array2部分排序为array1，则检查数组
为什么我的Biquad过滤器没有从我的噪音正确断开?
删除nullptr对象可能调用也可能不调用释放函数.为什么不保证后者呢?
Azure SQL Hyperscale-0个辅助副本
我使用的只是音频在扑动应用程序，从url播放，在真实设备上的一段时间后，应用程序停止，试图在后台播放音频
使用正则表达式模式的小写文本
Java -不同语言的字符串
c - WSL:功能未实现
我如何轻松地重新安装所有卸载的VS Code扩展，他们的文件仍然徘徊在我的~/.vscode /扩展文件夹吗?<
使用MS Graph API在应用注册中添加更多应用角色
PAC文件未正确筛选网站
返回一个字典，每个字符都有多个实例
AWS S3 -仅Zip文件对象，而不是路径
公共api如何处理CORS起源和jwt ?
如何摆脱实际上"duplicates"几乎等同的调用行，实际上只切换了部分列数据？
如何在换行时中断文本?
使用流JAVA 8将map转换为特定的dto对象
React Typescript：重构代码后无法过滤数组
pyalgotrade退出订单事件(onExitOk)的问题
如何从Lucene文档中打印所有术语?

刮擦蜘蛛，在队列中侦听种子网址的抓取

相关内容

最新更新

热门标签：