蜂巢分区和存储桶表的映射和减少任务数



我在 hive 中有一个分区表(在 col1 上(,它也被存储桶化(在 col2 上 16 个存储桶中(,现在如果我想运行选择查询,将生成多少个映射器和化简器任务?

对于输入表的每个输入拆分,将调度一个映射器,其中输入拆分的默认大小将是块大小。

您可以通过修改 mapreduce.input.fileinputformat.split.maxsize 和 mapreduce.input.fileinputformat.split.minsize 属性来更改映射器的数量。

说到Hive中的化简器数量,默认情况下,它是使用hive.exec.reducers.bytes.per.reducer属性计算的,其默认值为1GB。

您将能够通过修改上述属性来配置化简器的数量。不过,您也可以使用 mapred.reduce.tasks 属性为作业设置不变数量的化简器。

您可以在以下链接中找到更多详细信息

Hadoop如何决定有多少节点将执行映射和减少任务

最新更新