Hadoop MapReduce2 Optimization in Heterogeneous Cluster



我有这个配置:

  • Hadoop: v2.7.1 (Yarn)
  • 输入文件:大小 = 100 GB。
  • 3 个从站:每个都有 4 个 VCORE,速度 = 2 GHz,RAM = 8 GB
  • 5 个从属设备:每个都有 2 个 VCORE,速度 = 1 GHz,RAM = 2 GB
  • MapReduce程序:字数统计

如何通过将小的输入拆分分配给 5 个较慢的从站和将大输入拆分分配给 3 个最快的从站来最小化 WordCount 执行时间?

对于每台机器,您可以确定映射/减少插槽的数量,因此,如果您想向速度较慢的计算机发送较少的工作负载,您可以定义,例如,每台较慢的计算机 2 个映射/减少任务槽,每台速度较快的计算机 4 个映射/减少任务槽。这样,您可以控制群集中每个不同节点接收的工作负载量。

相关内容

  • 没有找到相关文章