关于提交申请的Spark文档说:
在客户端或群集模式下连接到 YARN 群集,具体取决于 --部署模式的值。将根据HADOOP_CONF_DIR或YARN_CONF_DIR变量找到聚类位置。
恐怕我没有得到它。我发现HADOOP_CONF_DIR
设置为包含许多shell脚本和配置文件的/etc/hadoop
。
我应该在哪里找到群集位置?
HADOOP_CONF_DIR
是Hadoop库用于各种Hadoop特定内容的配置文件的目录。我写了各种特定于Hadoop的东西来强调这里没有太多与Spark相关的内容。
更重要的是,HADOOP_CONF_DIR
也可以指向一个空目录(它说要假设默认值)。
要回答您的问题,您可以使用yarn.resourcemanager.address
在 yarn-site 中定义集群位置.xml。如果未找到yarn-site.xml
,则 YARN 群集在本地主机上可用。
我应该在哪里放置
yarn-site.xml
以便spark-submit
使用它?
我曾经使用YARN_CONF_DIR
指向带有yarn-site.xml
的目录。
YARN_CONF_DIR=/tmp ./bin/spark-shell --master yarn