处理任务彼此并行,而不是在 python 中串行处理



Task1:我有一组~120Gb的文档,一个程序从中不断提取"ids"。

任务2:提取所有"id"后,我必须处理每个"id"并提取一些链接到每个"id"的数据。

我编写了一个串行执行此操作的 python 脚本,即任务 2 在任务 1 完成时执行。我想知道是否有一种方法可以在 Task1 中找到每个"ids"时,它会立即将其发送到 Task2 进行处理,同时恢复以查找下一个"ids"。基本上,使两个任务并行工作以节省时间。

你所描述的让我想起了芹菜。

其他一些推荐的库:

  • concurrent.futures.ProcessPoolExecutor
  • 多处理。池

最新更新