运行许多作业时，Flink 的主要瓶颈是什么?

我的团队正在评估 Flink 的一些用例，在这些用例中，我们正在研究大量我们希望保持资源隔离的处理组。在单个集群中运行数万个作业时，人们是否会遇到已知的主要陷阱/瓶颈？

到目前为止，我们已经注意到，在完成几百个作业后，JobManager 似乎速度大大减慢，这里的建议是将单个大型集群拆分为多个较小的集群。这是最好的推荐方法，还是有没有办法让 Flink 在非常大规模的作业中可靠地运行？

每个群集一个作业可能是一种很有吸引力的方法，但当然，如果作业的生存期很短，则为每个作业启动群集的开销可能会很不幸。这种方法的一个优点是安全性，因为作业可以彼此适当隔离。

另一方面，即在单个集群中运行大量作业，随着任务管理器和作业数量的增加，协调集群中的所有检查点活动可能会成为瓶颈(假设启用了检查点(。

相关内容