使用独立的 YARN 运行 Spark 集群(不使用 Hadoop 的 YARN)

我想用YARN集群管理器部署一个spark集群。这个spark集群需要从属于现有Hadoop生态系统的外部HDFS文件系统读取数据，该生态系统也有自己的YARN(然而，我不允许使用Hadoop的YARN。(

我的问题是-

假设spark集群和Hadoop集群都在同一个数据中心中运行。

使用独立的YARN，同时仍然从外部HDFS文件系统读取数据

是。将yarn-site.xml配置为必要的集群，并使用完整的FQDN引用外部文件位置，如hdfs://namenode-external:8020/file/path

这种方法的任何缺点或性能损失

是。所有读取都将是远程的，而不是集群本地的。然而，这实际上与从S3或其他远程位置读取类似。

我可以将Spark作为一个独立的集群运行吗

如果可以的话，你可以，也可以使用Kubernetes，但如果已经有一个YARN集群(有足够的资源(可用的，两者都是毫无意义的IMO

相关内容