无法让 Spark 将魔术输出提交器用于带有 EMR 的 s3

我正在尝试使用神奇的输出提交程序，但无论我做什么，我都会得到默认的输出提交器。

INFO FileOutputCommitter: File Output Committer Algorithm version is 10
22/03/08 01:13:06 ERROR Application: Only 1 or 2 algorithm version is supported

根据Hadoop文档，我就是这样知道我在使用它的。我做错了什么？这是我的相关conf(使用SparkConf()(，我尝试了许多其他内容。

.set("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
.set("spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version", "10")
.set("spark.hadoop.fs.s3a.committer.magic.enabled", "true")
.set("spark.hadoop.mapreduce.outputcommitter.factory.scheme.s3a", "org.apache.hadoop.fs.s3a.commit.S3ACommitterFactory")
.set("fs.s3a.committer.name", "magic")
.set("spark.sql.sources.commitProtocolClass", "org.apache.spark.internal.io.cloud.PathOutputCommitProtocol")
.set("spark.sql.parquet.output.committer.class", "org.apache.spark.internal.io.cloud.BindingParquetOutputCommitter")

我没有任何其他与此相关的配置。不在代码或conf文件(Hadoop或Spark(中，也许我应该这样做？我正在编写的路径从s3://开始。使用Hadoop 3.2.1、Spark 3.0.0和EMR 6.1.1

所以经过大量阅读+stevel评论，我找到了我需要的。我使用的是优化的输出提交器，它是内置的EMR，默认情况下使用。我一开始没有使用它的原因是AWS优化的committer只有在可能的时候才会被激活。在EMR 6.4.0之前，它只适用于某些条件，但从6.4.0开始，它适用于每种写入类型TXTCSV镶木地板以及rdd数据报和数据集。所以我只需要更新到EMR 6.4.0。

执行时间提高了50-60%。

优化的提交人要求。

相关内容

最新更新

热门标签：