刮擦蜘蛛,在队列中侦听种子网址的抓取

  • 本文关键字:种子 子网 抓取 队列 scrapy
  • 更新时间 :
  • 英文 :


我有什么方法可以让 Scrapy 蜘蛛监听 SQS 队列(或其他)以抓取新的种子 URL?

在文档中找不到任何示例,所以认为有人可能知道这里。

提前谢谢。

编辑:

这也许start_requests正确的地方吗?

class MySpider(scrapy.Spider):
    name = 'example.com'
    allowed_domains = ['example.com']
    def start_requests(self):
        # read requests from queue here?
        while True:
            url = self._queue.get_url()
            yield scrapy.Request(url, self.parse)

重新执行Spider.start_requests()是动态生成请求以供蜘蛛处理的正确方法,无论这些请求来自何处(动态队列,本地文件等)。

顺便说一下,Scrapy 教程涵盖了这一点:)

最新更新