Apache Airflow - DAG 中有多少任务太多



>我尝试使用一个包含 400 个任务的 DAG(就像每个任务都运行调用远程 Spark 服务器将单独的数据文件处理到 s3 中......与MySQL无关(和Airflow(v1.10.3(在接下来的15分钟内执行以下操作:

  • CPU 保持在 99%
  • 没有处理新的腻子登录或 SSH 请求我的机器 (Amazon Linux(
  • 气流网络服务器停止响应。只给出了 504 错误
  • 启动了 130 个与 mysql RDS 的并发连接(气流元数据库(
  • 使我的任务卡在计划状态

我最终切换到另一个 EC2 实例,但得到了相同的结果......

我在单台机器(16 个 CPU(上运行本地执行器。

请注意,对于具有 30 个任务的 DAG,它运行良好。

DAG 中的任务数没有实际限制。在您的情况下,您使用的是LocalExecutor - 然后,气流将使用主机上的任何可用资源来执行任务。听起来您刚刚使 ec2 实例的资源不堪重负,并使气流工作程序/调度程序过载。我建议添加更多的工人来分解任务或降低气流中的parallelism值.cfg

最新更新