小贝子编程

将文件夹的内容移动到最终位置_temporary

本文关键字：位置 temporary 移动文件夹 hadoop apache-spark hadoop-yarn
更新时间 : 2023-09-12
英文 : Moving content of _temporary folder to final location

Spark 将正在进行的处理数据存储在 _temporary 文件夹中。作业完成后，数据将移动到其最终目标。但是，当有数万个分区时，将文件从一个地方移动到另一个地方需要相当长的时间。问：如何加快这一举措？在 yarn-cluster 模式下运行应用程序，在裸机 Hadoop 上，而不是在 AWS(没有 S3、EMR 等(上运行应用程序。

更新：我的工作大约需要 1 小时才能在 2.3 个分区中生成 25000T 的数据，而将数据移出_temporary还需要一个小时。

您可以通过

在任务提交期间使用选项 spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version 2 执行移动来加快速度。但是，这意味着如果任务在提交过程中失败，则结果为"未定义"。您正在用速度换取安全。

将文件夹的内容移动到最终位置_temporary

相关内容

最新更新

热门标签：