Yarn作为SPARK for linux集群的资源管理器- Kubernetes内部和外部

如果我使用Kubernetes集群来运行spark，那么我在spark中使用Kubernetes资源管理器

如果我使用Hadoop集群运行spark，那么我在spark中使用Yarn资源管理器。

但我的问题是，如果我在kebernetes中生成多个linux节点，并使用其中一个节点作为spark master和其他三个节点作为worker，我应该使用什么资源管理器?我可以在这里用纱线吗?

第二个问题，在任何4节点linux spark集群(不是在kubernetes和hadoop，简单连接的linux机器)的情况下，即使我没有hdfs，我可以在这里使用yarn作为资源管理器吗?如果没有，那么应该为spark使用什么资源管理器?

谢谢。

如果我在kebernetes中生成多个linux节点，

那么你显然会使用kubernetes，因为它是可用的

在任何4节点linux spark集群的情况下(不是在kubernetes和hadoop，简单连接的linux机器)，即使我没有hdfs，我可以在这里使用yarn

你可以，或者你可以使用Spark Standalone调度器。然而，Spark需要一个共享的文件系统来读写数据，所以，当你可以尝试使用NFS或S3/GCS时，HDFS更快。

相关内容