在hadoop 1.x中默认/查找mapper和reducers的数量

有人能帮我理解下面有关Hadoop 1.x的问题吗?

假设我只有一个节点，我有8 GB的RAM和40 TB的四核处理器硬盘。块大小为64mb，我们需要处理4tb的数据。我们如何决定映射器和简化器的数量?

谁能详细解释一下吗?如果我需要考虑任何其他参数来计算，请告诉我。
假设我在一个集群中有10个数据节点，每个节点有8 GB的RAM和40 TB的四核处理器硬盘。块大小为64MB。我们需要处理40tb的数据。我们如何决定映射器和简化器的数量?
带四核处理器的Data节点中mapper和reducer槽的默认数量是多少?

很多谢谢,Manish

映射器个数=拆分个数。输入文件将被分成几部分。每个分割将有一组记录。平均而言，每次分割只有一个块大小(64 MB以上)。因此，在您的情况下，您将有大约62500个映射器(或分割)(4TB/64)。您还可以选择提供可配置的输入分割大小。一般来说，这是在一次读取整个文件时完成的，您可以决定如何处理记录。

Number of reducers = mapper输出中唯一键的个数。您可以通过在作业类或jab运行命令中配置reducer来选择reducer的数量。上述数字基于默认散列分区器。您可以创建自己的分区器，它可以决定reducer的数量。

相关内容

最新更新

热门标签：