小贝子编程

Hadoop gzip输入文件只使用一个映射器

可能重复：
为什么可以'；t hadoop拆分一个大的文本文件，然后使用gzip压缩这些拆分？

我发现，当使用gzip输入文件时，Hadoop选择只分配一个映射任务来处理我的map/reduce作业。

gzipped文件超过1.4GB，所以我希望许多映射程序并行运行(就像使用未压缩文件时一样(

有什么配置可以改进吗？

Gzip文件无法拆分，因此所有数据都只能由一个映射处理。必须使用其他一些压缩算法，其中压缩文件可以被拆分，然后数据将由多个映射处理。这是一篇关于它的好文章。(1(

编辑：这是另一篇关于Snappy(2(的文章，来自谷歌。

(1(http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

(2(http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/

相关内容