我正在研究一个需要同时运行多个作业(不同数据)的项目。
我有一个图,有许多连接的组件,它们有很大的尺寸。我为每一个连接的组件和提交它创建新的工作。这些作业将同时运行还是将排队,并以先进先出优先级运行?
当然,我只能创建一个作业,并将每个连接的组件发送到每个mapper/reducer,但这会导致程序运行缓慢,因为我在每个连接的组件(反转等)上进行大量计算
作业将根据集群中的资源可用性同时运行,除非没有依赖作业。
当提交更多的作业时,这涉及到复杂的计算,只有集群中的资源决定程序的运行速度是慢还是快