背景:我正在使用芹菜来构建一个调度系统,以便每天对网站进行爬网。我们每天抓取大约100万个网址。因此,在微观层面上处理和管理这些事情变得越来越困难。芹菜是我们认为可以以比现在更好的方式处理当前系统的地方。
问题:我有1000个域名URL。我想做的是将1000个url平均划分为n个相等的块,然后为每个块创建一个任务并使用芹菜进行调度。为此,我无法动态创建(注册(任务。我还需要确保这里的礼貌政策。如何在芹菜中创建动态任务。没有相同的文档。
我解决这个问题的方向正确吗?
动态创建任务是什么意思?
你确实写了一个抓取网站的任务,并这样称呼它:
crawl_website.delay(url='http://example.com')