在AWS Elastic Map Reduce中禁用Gzip输入解压缩



我正在Gzipped.arc文件上运行MapReduce任务。类似于这个问题,我遇到了困难,因为Gzip解压缩是自动运行的(因为文件的扩展名是.gz),但它会导致换行符/回车符按照Unix文件编码呈现为换行符的问题。这使得输入完全不可读,因为它取决于嵌入文件中的特定字符数。我正在尝试禁用Gzip解压缩,这样我就可以在我的映射程序中正确地执行它。我试过:

 -jobconf stream.recordreader.compression=none

但这似乎并不影响压缩。有什么方法可以防止对我的输入进行Gzip解压缩吗?

谢谢,-Geoff

我已经确定了潜在的问题,并解决了您提到的问题:

  • hadoop将\r\n转换为并破坏ARC格式

基本上这是PipeMapper.java中的一个问题,您可以很容易地修改

相关内容

  • 没有找到相关文章

最新更新