我想用YARN集群管理器部署一个spark集群。这个spark集群需要从属于现有Hadoop生态系统的外部HDFS文件系统读取数据,该生态系统也有自己的YARN(然而,我不允许使用Hadoop的YARN。(
我的问题是-
- 是否可以使用独立的YARN运行spark集群,同时仍然从外部HDFS文件系统读取数据
- 如果是,这种方法是否会带来不利影响或性能损失
- 如果没有,我可以将Spark作为一个独立的集群运行吗?会有任何性能问题吗
假设spark集群和Hadoop集群都在同一个数据中心中运行。
使用独立的YARN,同时仍然从外部HDFS文件系统读取数据
是。将yarn-site.xml
配置为必要的集群,并使用完整的FQDN引用外部文件位置,如hdfs://namenode-external:8020/file/path
这种方法的任何缺点或性能损失
是。所有读取都将是远程的,而不是集群本地的。然而,这实际上与从S3或其他远程位置读取类似。
我可以将Spark作为一个独立的集群运行吗
如果可以的话,你可以,也可以使用Kubernetes,但如果已经有一个YARN集群(有足够的资源(可用的,两者都是毫无意义的IMO