在我当前的项目中,我正在使用具有活泼压缩格式的Orc文件,无论我运行什么查询,它都只用一个映射器运行。我尝试配置mapred.max.split.size和mapred.min.split.size,但没有显示映射器数量的任何变化。化简器计数已经足够好了,但是由于映射器是单个映射器,所以运行像这样的简单查询的时间。
从 X 组中选择 x,max(y) ; 需要将近 20 分钟才能完成映射器。我应该做任何其他事情来增加映射器的数量吗?
请不要告诉使用分区或存储桶,因为我已经在表中使用了它们。
尝试使用 tblproperties orc.stripe.size。
条带大小的默认值为 256 MB,从技术上讲,每个条带都有一个映射器。随着单个条带大小的减小,您可以增加映射器的数量。