有人能帮我理解下面有关Hadoop 1.x的问题吗?
-
假设我只有一个节点,我有8 GB的RAM和40 TB的四核处理器硬盘。块大小为64mb,我们需要处理4tb的数据。我们如何决定映射器和简化器的数量?
谁能详细解释一下吗?如果我需要考虑任何其他参数来计算,请告诉我。
-
假设我在一个集群中有10个数据节点,每个节点有8 GB的RAM和40 TB的四核处理器硬盘。块大小为64MB。我们需要处理40tb的数据。我们如何决定映射器和简化器的数量?
-
带四核处理器的Data节点中mapper和reducer槽的默认数量是多少?
很多谢谢,Manish
映射器个数=拆分个数。输入文件将被分成几部分。每个分割将有一组记录。平均而言,每次分割只有一个块大小(64 MB以上)。因此,在您的情况下,您将有大约62500个映射器(或分割)(4TB/64)。您还可以选择提供可配置的输入分割大小。一般来说,这是在一次读取整个文件时完成的,您可以决定如何处理记录。
Number of reducers = mapper输出中唯一键的个数。您可以通过在作业类或jab运行命令中配置reducer来选择reducer的数量。上述数字基于默认散列分区器。您可以创建自己的分区器,它可以决定reducer的数量。