计算并控制配置单元查询所使用的映射器的数量



我有一个配置单元表t1,它有104个文件。在104个文件中,有1个文件为61MB,其余103个文件小于1MB。当我执行查询时

select count(*) from t1

29个映射器与1个reducer一起执行。我想弄清楚为什么有29个映射器,以及如何减少映射器的数量?

mapreduce.input.fileinputformat.split.maxsize=256MB
mapreduce.input.fileinputformat.split.maxsize=1kb

感谢

尝试使用以下选项设置映射器

设置mapred.map.tasks=20;

还要检查数据的总块数。

hdfs dfs-du-s-h/apps/hive/warehouse//

每个区块将被独立处理。每个映射器可以根据您设置的映射器编号处理多个块。

最新更新