使用 Snappy 压缩以 ORC 格式写入 Spark 数据帧



我成功地读取了存储在 S3 中的文本文件,并使用 Spark 数据帧将其以 ORC 格式写回 S3。 - inputDf.write().orc(outputPath);
我无法做的是通过快速压缩转换为 ORC 格式。我已经尝试在编写时提供选项,将编解码器设置为活泼,但 Spark 仍然像正常的 ORC 一样编写。如何使用 Spark 数据帧实现 ORC 格式的 Snappy 压缩到 S3 的写入?

对于面临相同问题的任何人,在 Spark 2.0 中,默认情况下这是可能的。ORC 的默认压缩格式设置为活泼。

public class ConvertToOrc {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .appName("OrcConvert")
                .getOrCreate();
        String inputPath = args[0];
        String outputPath = args[1];
        Dataset<Row> inputDf = spark.read().option("sep", "01").option("quote", "'").csv(inputPath);
        inputDf.write().format("orc").save(outputPath);
   }
}

最新更新