如何让多个 Scrapy 蜘蛛同时解析 URL 链接列表?



>我有一个大约 1000 个 URL 的列表,我需要从每个 URL 中提取相同类型的数据。有没有办法让 Scrapy 一次"部署"多个蜘蛛,每个蜘蛛从列表中获取一个 URL 并解析页面,然后输出到公共字典中?我正在考虑使用 10 个或更多的蜘蛛来做到这一点。

您是否尝试在不使用多个蜘蛛的情况下解决任务?

尝试将所有 URL 添加到"start_urls"列表中,或者在"start_requests"方法中从文件中获取 URL 列表,并使用 Srapy 的设置(如"CONCURRENT_REQUESTS"和"CONCURRENT_ITEMS"(调整并发级别,例如:

custom_settings = {
    'CONCURRENT_REQUESTS': '1000',
    'CONCURRENT_ITEMS': '10000'
}

或者更适合您任务的东西。

附言从URL列表中生成许多Scrapy蜘蛛并与Scrapy-deploy(http://scrapyd.readthedocs.io/en/stable/(同时运行它们也是一种选择,尽管对我来说它看起来有点脏。

相关内容

  • 没有找到相关文章

最新更新