我已经建立了一个hadoop集群,其中有3台机器,一台主机和两台从机在大师我安装了火花
SPARK_HADOOP_VERSION=2.4.0 SPARK_YARN=true sbt/sbt clean assembly
添加了HADOOP_CONF_DIR=/usr/local/HADOOP/etc/HADOOP-spark-env.sh
Then i ran SPARK_JAR=./assembly/target/scala-2.10/spark-assembly-1.0.0-SNAPSHOT-hadoop2.4.0.jar HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop ./bin/spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi --num-executors 3 --driver-memory 4g --executor-memory 2g --executor-cores 1 examples/target/scala-2.10/spark-examples-1.0.0-SNAPSHOT-hadoop2.4.0.jar
我检查了localhost:8088,看到应用程序SparkPi正在运行。。
就是这个,还是我应该在两台从属机器上安装火花。。我怎样才能启动所有的机器?
外面有医生帮忙吗。。我觉得我错过了什么。。
在spark单机版中,我们更多地启动主机和工人./bin/spark类org.apache.spark.deploy.worker.workerspark://IP:PORT
我也想知道如何在这种情况下运行多个工作以及
我知道我们可以在conf/slave中配置slave,但任何人都可以共享一个示例吗
请帮助我陷入
假设您使用的是Spark 1.1.0,如文档中所述(http://spark.apache.org/docs/1.1.0/submitting-applications.html#master-url),对于master参数,您可以使用值yarn cluster或yarn client。在这种情况下,您不需要使用部署模式参数。
您不必在所有YARN节点上安装Spark。这就是YARN的用途:在Hadoop集群上分发应用程序(在本例中为Spark)。