如何使用 tez 更改带有 ORC 文件的映射器数量?



我正在尝试增加地图任务的数量。文件格式为ORC,并使用TEZ进行处理。

我有一个 2.8 GB 的文件。大约 128 MB 文件,文件数量约为 29 个。

每次我执行 28 个地图任务都会被执行。我正在尝试增加地图任务计数。

提前致谢

检查这些设置(请参阅下面的注释(:

set hive.tez.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
set tez.grouping.min-size=16777216; -- files with smaller size will be combined if possible
set tez.grouping.max-size=67108864; -- (default is 1 Gb), files with bigger size will be splitted and more mappers started

您还可以使用此设置控制映射器的数量:

set mapreduce.job.maps=128; --better use grouping splits configuration (above) instead of this one because it is more flexible

最新更新