使用 Airflow 进行批处理,根据父任务的输出动态启动多个任务



我试图弄清楚气流是否可用于表达一个工作流程,其中需要根据父任务的输出启动同一任务的多个实例。Airflow 支持多个工作线程,所以我天真地期望 Airflow 可用于编排涉及批处理的工作流。到目前为止,我未能找到任何适合此模型的配方/方向。利用气流进行浴槽处理工作流程的正确方法是什么?假设有一个气流工作器池。

工作流示例:1. 启动任务 A 以生成多个文件2. 为每个文件启动任务 B 的一个实例(可能是另一个工作流(3. 等待任务 B 的所有实例,然后启动任务 C

作为在

Airflow 中并行处理输入数据的技巧,我使用自定义运算符将输入拆分为预定数量的分区。下游运算符将为每个分区复制,如果需要,可以再次合并结果。对于本地文件,操作员运行 split 命令。在 Kubernetes 中,这与集群自动扩展配合得很好。

最新更新