分割tar.gz后,将.tar.gz转换为序列文件



是否可以使用map reduce将1 .tar.gz文件转换为1个序列文件?到目前为止,我遇到的所有解决方案都可以在不拆分tar.gz或本地文件系统的情况下执行此操作。

http://qethanm.cc/projects/forqlift/examples/

假设您的gzip压缩文件存储在HDFS中,其大小为1gb。HDFS块大小为64 MB,文件将存储为16个块。但是,为每个块创建一个拆分不会工作,因为不可能从gzip流中的任意点开始读取,并且因此,map任务不可能独立于其他任务读取其拆分。的gzip格式使用DEFLATE存储压缩后的数据,DEFLATE存储数据作为一系列压缩块。问题是,每个块的开始不是以任何方式区分,将允许读者定位在任意点流推进到下一个块的开始,从而使自己同步和小溪一起。因此,gzip不支持拆分

相关内容

  • 没有找到相关文章

最新更新