可能重复:
为什么可以';t hadoop拆分一个大的文本文件,然后使用gzip压缩这些拆分?
我发现,当使用gzip输入文件时,Hadoop选择只分配一个映射任务来处理我的map/reduce作业。
gzipped文件超过1.4GB,所以我希望许多映射程序并行运行(就像使用未压缩文件时一样(
有什么配置可以改进吗?
Gzip文件无法拆分,因此所有数据都只能由一个映射处理。必须使用其他一些压缩算法,其中压缩文件可以被拆分,然后数据将由多个映射处理。这是一篇关于它的好文章。(1(
编辑:这是另一篇关于Snappy(2(的文章,来自谷歌。
(1(http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/
(2(http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/