小贝子编程

保存在拼花格式从多个火花工人

本文关键字：火花存在格式保存 apache-spark hadoop-yarn parquet
更新时间 : 2023-08-26
英文 : Saving in parquet format from multiple spark workers

我有一个需要从所有工作节点保存parquet/avro格式的结果的作业。我是否可以为每个单独的分区执行单独的parquet文件，并将所有结果文件作为单个表读取?或者有更好的方法来解决这个问题?Input分为96个分区，结果需要保存在HDFS上。当我试图将它保存为文件时，它创建了超过一百万个小文件。

您可以在调用write之前执行repartition(或者coalesce，如果您总是想要更少的分区)到所需的分区数量。然后，您的数据将写入相同数量的文件中。当需要读取数据时，只需指向包含文件的文件夹，而不是指向特定的文件。这样的:

sqlContext.read.parquet("s3://my-bucket/path/to/files/")

相关内容

没有找到相关文章

最新更新