Hadoop FairScheduler的高级内部数据结构和算法



Hadoop FairScheduler的内部结构是什么?他们是否使用优先级队列、堆来确定每个作业等待的时间?或者使用了其他技术?

一个很好的起点是描述公平调度程序的论文。它详细描述了算法,并为不同类型的作业提供了基准测试。简要的总结是,它试图通过在较大作业的前面或旁边运行小作业来提高集群的总体吞吐量。在某种程度上,您可以将其描述为优先级队列,但它更复杂,因为它试图将数据或机架任务放置在本地,并且需要进行不同的权衡。大多数调度器最好被认为是最小化算法,因为它们试图减少完成任意工作块所需的时间。

最新更新