DataproC语言 SparkSession.builder.appName没有反映在Dataproc属性上



我正在运行一个PySpark应用程序,使用Dataproc Serverless for Spark,我的配置文件看起来像这样:

spark = (
pyspark.sql.SparkSession.builder.appName("app_name")
.config("spark.logConf", "true")
.config("spark.sql.broadcastTimeout", broadcast_timeout)
.config("spark.jars.packages", "io.delta:delta-core_2.12:0.8.0")
.config("spark.ui.showConsoleProgress", progress_bar)
.getOrCreate()
)

但是使用的appName没有反映在Dataproc批处理作业控制台:

In Dataproc ->批次→点击工作Id ->详细信息选项卡->属性:spark:spark.app.name给我一个随机ID。

Dataproc UI反映批量提交时设置的属性,而不反映Spark应用程序代码中设置的所有属性。你看到的spark.app.name属性值是这个属性的默认值,你可以在你的Spark应用程序中重写。

如果可以,您需要在提交批处理作业时设置此属性:

gcloud dataproc batches submit 
. . . 
--properties=spark.app.name="<MY_CUSTOM_APP_NAME>"

最新更新