Hive - 在映射器之间随机分布记录



我正在寻找类似DISTRIBUTE BY的东西,但用于映射器而不是化简器。

我正在运行一个仅地图转换作业,并且使用

SET mapred.min.split.size=2100000;
SET mapred.max.split.size=2100000;

控制分配的映射器数量。总分区大小约为 800MB,作业确实分配了大约 400 个映射器,这似乎与拆分大小一致。我遇到的问题是 ~390 个映射器在 1m

有没有办法强制映射器获取(大约(相等数量的记录,以免发生这种情况?

固定。显然,从中查询的表在HDFS中只有10个文件,因此只能使用10个映射器。

相关内容

  • 没有找到相关文章

最新更新