蜂巢分区和存储桶表的映射和减少任务数

我在 hive 中有一个分区表(在 col1 上(，它也被存储桶化(在 col2 上 16 个存储桶中(，现在如果我想运行选择查询，将生成多少个映射器和化简器任务？

对于输入表的每个输入拆分，将调度一个映射器，其中输入拆分的默认大小将是块大小。

您可以通过修改 mapreduce.input.fileinputformat.split.maxsize 和 mapreduce.input.fileinputformat.split.minsize 属性来更改映射器的数量。

说到Hive中的化简器数量，默认情况下，它是使用hive.exec.reducers.bytes.per.reducer属性计算的，其默认值为1GB。

您将能够通过修改上述属性来配置化简器的数量。不过，您也可以使用 mapred.reduce.tasks 属性为作业设置不变数量的化简器。

您可以在以下链接中找到更多详细信息

Hadoop如何决定有多少节点将执行映射和减少任务

相关内容