Hadoop gzip输入文件只使用一个映射器



可能重复:
为什么可以';t hadoop拆分一个大的文本文件,然后使用gzip压缩这些拆分?

我发现,当使用gzip输入文件时,Hadoop选择只分配一个映射任务来处理我的map/reduce作业。

gzipped文件超过1.4GB,所以我希望许多映射程序并行运行(就像使用未压缩文件时一样(

有什么配置可以改进吗?

Gzip文件无法拆分,因此所有数据都只能由一个映射处理。必须使用其他一些压缩算法,其中压缩文件可以被拆分,然后数据将由多个映射处理。这是一篇关于它的好文章。(1(

编辑:这是另一篇关于Snappy(2(的文章,来自谷歌。

(1(http://blog.cloudera.com/blog/2009/11/hadoop-at-twitter-part-1-splittable-lzo-compression/

(2(http://blog.cloudera.com/blog/2011/09/snappy-and-hadoop/

相关内容

  • 没有找到相关文章