如何在dataproc上运行hudi并写入gcs bucket



我想使用hudi从dataproc写入gcs bucket。

要使用hudi写入gcs,它说要将prop fs.defaultFS设置为值gs://(https://hudi.apache.org/docs/gcs_hoodie)

然而,当我将dataproc上的fs.defaultFS设置为gcs bucket时,我在启动时会遇到与无法找到我的jar的作业相关的错误。它在gs:/前缀中查找,可能是因为我覆盖了它以前使用findthejar的defaultFs。我该怎么解决这个问题?

org.apache.spark.SparkException: Application application_1617963833977_0009 failed 2 times due to AM Container for appattempt_1617963833977_0009_000002 exited with  exitCode: -1000
Failing this attempt.Diagnostics: [2021-04-12 15:36:05.142]java.io.FileNotFoundException: File not found : gs:/user/root/.sparkStaging/application_1617963833977_0009/myjar.jar

如果相关,我将从代码中设置defaultFs。sparkConfig.set("spark.hadoop.fs.defaultFS",gs://defaultFS(

创建集群时,可以尝试将fs.defaultFS设置为GCS。例如:

gcloud dataproc clusters create ...
--properties 'core:fs.defaultFS=gs://my-bucket'

相关内容

  • 没有找到相关文章

最新更新