我正在尝试增加地图任务的数量。文件格式为ORC,并使用TEZ进行处理。
我有一个 2.8 GB 的文件。大约 128 MB 文件,文件数量约为 29 个。
每次我执行 28 个地图任务都会被执行。我正在尝试增加地图任务计数。
提前致谢
检查这些设置(请参阅下面的注释(:
set hive.tez.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;
set tez.grouping.min-size=16777216; -- files with smaller size will be combined if possible
set tez.grouping.max-size=67108864; -- (default is 1 Gb), files with bigger size will be splitted and more mappers started
您还可以使用此设置控制映射器的数量:
set mapreduce.job.maps=128; --better use grouping splits configuration (above) instead of this one because it is more flexible