数据库驱动抓取中的Python多进程/多线程



我在我的数据库中有大约7 lacs网站的url。我只是从那个网站上抓取了一些简短的信息。

但是当我运行脚本时,花大量时间检查如此庞大的url是正常的。

当前,我正在做for循环:

def scrape_short_webinfo():
# a function scraping some minor data
for instance in Link.objects.all():
scrape_short_webinfo(instance.url)

我想把这些东西放在多进程/多线程,这样它的脚本应该完成得更快。

在这种情况下有人能帮我吗?

你可以使用ExecutorService来并行化你的代码

最新更新