运行许多作业时,Flink 的主要瓶颈是什么?



我的团队正在评估 Flink 的一些用例,在这些用例中,我们正在研究大量我们希望保持资源隔离的处理组。在单个集群中运行数万个作业时,人们是否会遇到已知的主要陷阱/瓶颈?

到目前为止,我们已经注意到,在完成几百个作业后,JobManager 似乎速度大大减慢,这里的建议是将单个大型集群拆分为多个较小的集群。这是最好的推荐方法,还是有没有办法让 Flink 在非常大规模的作业中可靠地运行?

每个群集一个作业可能是一种很有吸引力的方法,但当然,如果作业的生存期很短,则为每个作业启动群集的开销可能会很不幸。这种方法的一个优点是安全性,因为作业可以彼此适当隔离。

另一方面,即在单个集群中运行大量作业,随着任务管理器和作业数量的增加,协调集群中的所有检查点活动可能会成为瓶颈(假设启用了检查点(。

相关内容

最新更新