使用独立的 YARN 运行 Spark 集群(不使用 Hadoop 的 YARN)



我想用YARN集群管理器部署一个spark集群。这个spark集群需要从属于现有Hadoop生态系统的外部HDFS文件系统读取数据,该生态系统也有自己的YARN(然而,我不允许使用Hadoop的YARN。(

我的问题是-

  • 是否可以使用独立的YARN运行spark集群,同时仍然从外部HDFS文件系统读取数据
  • 如果是,这种方法是否会带来不利影响或性能损失
  • 如果没有,我可以将Spark作为一个独立的集群运行吗?会有任何性能问题吗

假设spark集群和Hadoop集群都在同一个数据中心中运行。

使用独立的YARN,同时仍然从外部HDFS文件系统读取数据

是。将yarn-site.xml配置为必要的集群,并使用完整的FQDN引用外部文件位置,如hdfs://namenode-external:8020/file/path

这种方法的任何缺点或性能损失

是。所有读取都将是远程的,而不是集群本地的。然而,这实际上与从S3或其他远程位置读取类似。

我可以将Spark作为一个独立的集群运行吗

如果可以的话,你可以,也可以使用Kubernetes,但如果已经有一个YARN集群(有足够的资源(可用的,两者都是毫无意义的IMO

相关内容

  • 没有找到相关文章

最新更新