我想使用tarball安装Hadoop和Spark的Cloudera发行版。我已经在本地机器上以伪分布式模式设置了Hadoop,并成功地运行了一个Yarn示例。
我已经从这里下载了最新的tarball CDH 5.3.x
但从Cloudera下载的Spark的文件夹结构与Apache网站不同。这可能是因为Cloudera提供了单独维护的自己的版本。
因此,由于我还没有找到从Cloudera的tarball单独安装Spark的文档。有人能帮我理解怎么做吗?
Spark可以提取到任何目录。您只需要使用所需的参数运行./bin/spark-submit
命令(在提取的spark目录中可用)即可提交作业。要启动spark交互式shell,请使用命令./bin/spark-shell
。