在哪里可以找到dataproc主节点地址并在pyspark作业中设置setMaster()



我正在dataproc集群上运行pyspark作业。如果我不设置Master,它运行得很好。但是,我想知道,我们如何才能设定大师。我没有得到主节点url的地址。我只是试图复制主节点计算引擎Ip地址和setMaster('spark://<MASTER_COMPUTE_ENG_ADRESS>:7077'(但是它的投掷错误。

有人能告诉我,我在哪里可以找到GCP数据进程上的Master节点url,以及如何在Pyspark作业中设置Master吗?

Dataproc默认情况下在YARN 1上运行Spark作业。在Spark配置中,spark.master被设置为yarn,因此Spark可以从YARN配置/etc/hadoop/conf/yarn-site.xml中自动找到YARN地址。

通常,除非您希望作业在YARN之外运行,否则不应在Dataproc上显式设置master。在这种情况下,您需要首先手动启动Spark master和worker,才能在独立模式2中运行Spark。

最新更新