Spark独立集群:配置分布式文件系统



我刚刚从Spark本地设置转移到Spark独立集群。显然,加载和保存文件不再有效。

我知道我需要使用Hadoop来保存和加载文件。我的Spark安装是Spark-2.2.1-bin-hadoop2.7

问题1:我仍然需要单独下载、安装和配置Hadoop才能与我的独立Spark集群一起工作,这是正确的吗?

问题2:使用Hadoop运行和使用Yarn运行有什么区别。。。哪个更容易安装和配置(假设数据负载相当轻(?

A1。正确的您提到的软件包只包含指定版本的hadoop客户端,如果您想使用hdfs,仍然需要安装hadoop。

A2.使用yarn运行意味着您将使用spark的资源管理器作为yarn。(http://spark.apache.org/docs/latest/job-scheduling.html#scheduling-跨应用程序(因此,当您不需要DFS时,例如当您只运行spark流应用程序时,您仍然可以安装Hadoop,但只能运行yarn进程来使用其资源管理功能。

相关内容

最新更新