我正在寻找类似DISTRIBUTE BY
的东西,但用于映射器而不是化简器。
我正在运行一个仅地图转换作业,并且使用
SET mapred.min.split.size=2100000;
SET mapred.max.split.size=2100000;
控制分配的映射器数量。总分区大小约为 800MB,作业确实分配了大约 400 个映射器,这似乎与拆分大小一致。我遇到的问题是 ~390 个映射器在 1m
有没有办法强制映射器获取(大约(相等数量的记录,以免发生这种情况?
固定。显然,从中查询的表在HDFS中只有10个文件,因此只能使用10个映射器。