如何使用Apache Spark Java解压缩Gziped



我有一个序列文件。在这个文件中是每个值压缩的json文件与GZipped。我的问题,如何使用Apache Spark读取gzip json文件?

为此,我的代码,

JavaSparkContext jsc = new JavaSparkContext("local", "sequencefile");
JavaPairRDD<String, byte[]> file = jsc.sequenceFile("file:\E:\part-00004", String.class, byte[].class);
JavaRDD<String> map = file.map(new Function<Tuple2<String, byte[]>, String>() {
public String call(Tuple2<String, byte[]> stringTuple2) throws Exception {
byte[] uncompress = uncompress(stringTuple2._2);
return uncompress.toString();
}
});

但是这个代码函数不起作用。 有好的一天

在创建 Spark 上下文时使用构造函数,该构造函数也将 Spark 配置作为第三个参数。

为密钥"org.apache.hadoop.io.compression.codecs"设置火花配置值

如下

"org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec">

最新更新