关于 scrapy 的并发模型



现在我计划以更分布式的方法使用scrapy,但我不是确定蜘蛛/管道/下载器/调度程序和引擎是否都托管在单独的进程或线程中,任何人都可以共享一些关于这个的信息?我们是否可以更改每个进程/线程计数元件?我知道现在有两个设置"CONCURRENT_REQUESTS"和"CONCURRENT_ITEMS",他们将确定下载器和管道,对吧?如果我想部署蜘蛛/不同机器中的管道/下载器,我需要序列化项目/请求/响应,对吧?非常感谢您的帮助!!

谢谢爱德华。

Scrapy 是单线程的。它使用反应器模式来实现并发网络请求。这是使用扭曲框架完成的。

想要分发Scrapy的人通常会尝试实现一些消息传递框架。有些人使用Redis,有些人尝试RabbitMQ

也看看 刮板

最新更新