Yarn作为SPARK for linux集群的资源管理器- Kubernetes内部和外部



如果我使用Kubernetes集群来运行spark,那么我在spark中使用Kubernetes资源管理器

如果我使用Hadoop集群运行spark,那么我在spark中使用Yarn资源管理器。

但我的问题是,如果我在kebernetes中生成多个linux节点,并使用其中一个节点作为spark master和其他三个节点作为worker,我应该使用什么资源管理器?我可以在这里用纱线吗?

第二个问题,在任何4节点linux spark集群(不是在kubernetes和hadoop,简单连接的linux机器)的情况下,即使我没有hdfs,我可以在这里使用yarn作为资源管理器吗?如果没有,那么应该为spark使用什么资源管理器?

谢谢。

如果我在kebernetes中生成多个linux节点,

那么你显然会使用kubernetes,因为它是可用的

在任何4节点linux spark集群的情况下(不是在kubernetes和hadoop,简单连接的linux机器),即使我没有hdfs,我可以在这里使用yarn

你可以,或者你可以使用Spark Standalone调度器。然而,Spark需要一个共享的文件系统来读写数据,所以,当你可以尝试使用NFS或S3/GCS时,HDFS更快。