我在Hadoop中有1.2GB的文件,在BZip2编解码器中压缩。我们的Hadoop YARN集群有10个节点。HDFS块大小为128 MB,因此我认为文件被拆分为10个块。BZip2应该是可拆分的编解码器,所以我认为当我开始处理输入文件时,Hadoop执行10个映射任务(每个块一个)。但当我查看作业日志时,我只能看到一个Map任务。
我没有发现任何限制YARN中映射器数量的设置(与Hadoop1形成对比)。
我错过了什么,或者我做错了什么?
感谢
我从未使用过BZip2,但我认为这个问题可能与您的fileInputFormat
有关。您可能还需要配置您的fileInputFormat plz。看看这个答案。