我明白 以下是火花集群所需的守护进程
- 主人
- 工人(从属(
- 驱动程序(应用程序被订阅时启动(
- 执行器(在应用程序被订阅时启动(
纱线集群上设置时,我对Spark有一些非常基本的问题
- 是否有任何主守护进程或工作守护进程单独启动用于 spark ?我知道纱线集群本身的资源管理器和节点管理器将充当火花作业的主节点和工作线程。从这篇文章 http://blog.cloudera.com/blog/2014/05/apache-spark-resource-management-and-yarn-app-models/来看,似乎没有单独的主/从守护进程来用于纱线上的火花。
- 如果上述问题的答案是否定的。当我们尝试在现有纱线上设置 Spark 时,在提交 Spark 应用程序之前,我们是否需要启动任何持久守护进程?
- 在这种情况下,spark-1.5.0-bin-hadoop2.4\sbin 目录中的任何开始-停止脚本都将有用?
- Spark WEB UI在驱动程序完成执行后不可用。我说的对吗?
以下是您问题的答案: -
- 在纱线模式下,您不需要主节点、工作程序或执行程序。您只需要将您的申请提交给 Yarn,其余 Yarn 将自行管理。请参阅部署部分,了解如何利用 Yarn 作为集群管理器。
- 如果您的 Yarn 集群已启动并正在运行并准备好提供服务,则不需要任何其他守护进程。
- 取决于你想要做什么,但可以使用像
SPARK_HOME/sbin/spark-config.sh
或SPARK_HOME/sbin/start-history-server.sh
这样的脚本。 - Spark Web UI 仅在独立模式下可用。在纱线中,驱动程序 UI 在执行作业时可用,或者您需要打开历史记录服务器以在作业完成后分析作业。