将文件夹的内容移动到最终位置_temporary



Spark 将正在进行的处理数据存储在 _temporary 文件夹中。作业完成后,数据将移动到其最终目标。但是,当有数万个分区时,将文件从一个地方移动到另一个地方需要相当长的时间。问:如何加快这一举措?在 yarn-cluster 模式下运行应用程序,在裸机 Hadoop 上,而不是在 AWS(没有 S3、EMR 等(上运行应用程序。

更新:我的工作大约需要 1 小时才能在 2.3 个分区中生成 25000T 的数据,而将数据移出_temporary还需要一个小时。

您可以通过

在任务提交期间使用选项 spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version 2 执行移动来加快速度。但是,这意味着如果任务在提交过程中失败,则结果为"未定义"。您正在用速度换取安全。

相关内容

  • 没有找到相关文章

最新更新