我有一个从RPM软件包安装的Cloudera CDH 5.11集群(我们不想使用Cloudera Manager或包裹(。有没有人为CDH找到/构建Spark 2 RPM软件包?Cloudera似乎只将Spark 2作为包裹运送。
你不会。 目前,文档"Spark 2 已知问题"明确指出:
不支持软件包安装
Apache Spark 2 的 Cloudera 发行版只能作为包裹安装。
https://www.cloudera.com/documentation/spark2/latest/topics/spark2_known_issues.html#ki_package_install
最好的方法是在 Yarn 上使用 Spark 而不是使用 Spark Master/Worker。您可以自由使用您喜欢的任何 Spark 版本,而与供应商提供的内容无关。
您需要做的是打包 Spark 历史记录服务器,以便能够在作业完成后查看它们。而且,如果要使用动态分配,则需要在 Yarn 中配置 Spark Shuffle 服务。
看起来我无法对某个问题发表评论,所以请原谅这篇文章作为答案。
是否可以使用 CM 在安装了 RPM 的集群上安装 Spark2 包?
从 CDH 6.0 开始,Spark 2 作为 RPM 包含在内。 问题解决了。