同步hadoop集群节点间的配置文件



我有一个由4个节点组成的hadoop集群,我正在运行pyspark脚本。我有一个config.ini文件,其中包含脚本所需的证书,密码,服务器名称等详细信息。每次更新此文件时,我都需要在所有4个节点上同步更改。有办法避免这种情况吗?

我需要同步或更新更改到我的脚本。在一个节点上创建它们并从那里运行它就足够了。配置文件也是一样的吗?

最安全的答案可能是学习如何在spark中使用密钥存储库。

不太安全,但仍然很好。您是否考虑过可以将文件放在HDFS中,然后只引用它?(安全性较低,但更容易使用)

易于使用的不安全方法:

您也可以将其作为文件传递给spark-submit,以便为您传输文件。

或者你可以把这些值添加到你的spark提交中。

最新更新