所以我使用以下代码将一个spark RDD保存到S3存储桶中。有没有一种方法可以压缩(以gz格式)并保存,而不是将其保存为文本文件。
help_data.repartition(5).saveAsTextFile("s3://help-test/logs/help")
saveAsTextFile
方法采用一个可选参数,该参数指定压缩编解码器类:
help_data.repartition(5).saveAsTextFile(
path="s3://help-test/logs/help",
compressionCodecClass="org.apache.hadoop.io.compress.GzipCodec"
)