如何通过pyspark以gzip格式保存spark RDD



所以我使用以下代码将一个spark RDD保存到S3存储桶中。有没有一种方法可以压缩(以gz格式)并保存,而不是将其保存为文本文件。

help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")

saveAsTextFile方法采用一个可选参数,该参数指定压缩编解码器类:

help_data.repartition(5).saveAsTextFile(
    path="s3://help-test/logs/help",
    compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)

最新更新