spark的下载包类型有什么不同:1)预先构建的hadoop 2-6-0和更高版本2)源代码(可以构建多个hadoop版本)我可以安装预构建的hadoop 2-6-0和更高版本,但我不使用(hadoop, HDFS, hbase)
ps:hadoop 2.6.0已经安装在我的机器上。
上一个答案只解决了第一个问题,所以写这个。对你的问题的回答是肯定的,你可以在没有安装hadoop组件的情况下在spark上工作,即使你使用预先构建的特定hadoop版本的spark。在启动master/workers时,Spark会抛出一堆错误,只要你看到它们启动并运行,你(和Spark)就可以高兴地忽略它们。在应用方面,这绝对不是问题。
区别在于它们所构建的hadoop API的版本不同。要与Hadoop安装进行互操作,Spark需要基于该API进行构建。例如,org.apache.hadoop.mapred
与org.apache.hadoop.mapreduce
的可怕冲突
如果你使用的是Hadoop 2.6,请获取与你的Hadoop安装相匹配的二进制版本。
你也可以从源代码构建spark。这是源代码下载。如果您想要从源代码构建,请遵循下面列出的说明:https://spark.apache.org/docs/latest/building-spark.html