从 ORC 读取时增加映射器的数量



这就是问题所在。

我正在尝试从 Hive 中的压缩 ORC 表中读取数据,但 YARN 无法确定正确的映射器数量,因为它使用压缩数据大小的值进行计算而不是原始的。这是一个问题,因为我们只有18个映射器用于大约100 GB的数据集。

使用hive.exec.reducers.bytes.per.reducer有助于增加reducer的数量。有没有办法获得更多的映射器?

提前感谢!

如果您使用以下配置设置

set mapreduce.input.fileinputformat.split.maxsize=100000;
set mapreduce.input.fileinputformat.split.minsize=100000;

如果减小最大值,则应获得更多映射器。我认为无论如何都应该有效!

最新更新