小贝子编程

如何让多个 Scrapy 蜘蛛同时解析 URL 链接列表?

本文关键字：URL 链接列表 Scrapy python scrapy multiprocessing
更新时间 : 2023-09-13
英文 : How to get multiple Scrapy spiders to parse a list of URL links at the same time?

>我有一个大约 1000 个 URL 的列表，我需要从每个 URL 中提取相同类型的数据。有没有办法让 Scrapy 一次"部署"多个蜘蛛，每个蜘蛛从列表中获取一个 URL 并解析页面，然后输出到公共字典中？我正在考虑使用 10 个或更多的蜘蛛来做到这一点。

您是否尝试在不使用多个蜘蛛的情况下解决任务？

尝试将所有 URL 添加到"start_urls"列表中，或者在"start_requests"方法中从文件中获取 URL 列表，并使用 Srapy 的设置(如"CONCURRENT_REQUESTS"和"CONCURRENT_ITEMS"(调整并发级别，例如：

custom_settings = {
    'CONCURRENT_REQUESTS': '1000',
    'CONCURRENT_ITEMS': '10000'
}

或者更适合您任务的东西。

附言从URL列表中生成许多Scrapy蜘蛛并与Scrapy-deploy(http://scrapyd.readthedocs.io/en/stable/(同时运行它们也是一种选择，尽管对我来说它看起来有点脏。

相关内容