我有一个配置单元表t1,它有104个文件。在104个文件中,有1个文件为61MB,其余103个文件小于1MB。当我执行查询时
select count(*) from t1
29个映射器与1个reducer一起执行。我想弄清楚为什么有29个映射器,以及如何减少映射器的数量?
mapreduce.input.fileinputformat.split.maxsize=256MB
mapreduce.input.fileinputformat.split.maxsize=1kb
感谢
尝试使用以下选项设置映射器
设置mapred.map.tasks=20;
还要检查数据的总块数。
hdfs dfs-du-s-h/apps/hive/warehouse//
每个区块将被独立处理。每个映射器可以根据您设置的映射器编号处理多个块。