安装Spark似乎有两种方法。
-
通过从下载预构建的Spark版本(例如Spark-2.4.5-bin-hadoop2.7.tgz(安装Spark时https://spark.apache.org/downloads.html,
-
是否需要通过安装JRE来额外安装
java
命令? -
我是否需要通过安装JDK来额外安装java编译器
javac
? -
我需要额外安装scala编译器吗?(我想没有,因为我看到下载的Spark版本包含
./jar/scala-compiler.jar
.( -
我需要额外安装pyspark吗?(我想不会,因为我看到下载的Spark版本包含
./bin/pyspark
。(
-
-
运行
pip install pyspark
安装Spark时,是否已经为Java和Scala安装了spark?或者我需要另外安装一些东西来编程SparkJava和Scala中的应用程序?
谢谢。
https://spark.apache.org/faq.html
是否需要通过安装JRE来额外安装java命令?
是的,请参阅常见问题解答。
是否需要通过安装JDK来额外安装java编译器javac?
否。我想没有,但我总是用sdk。
我需要额外安装scala编译器吗?(我想不会,因为我看到下载的Spark版本包含./jar/scala compiler.jar。(
无
我需要额外安装pyspark吗?(我想不会,因为我看到下载的Spark版本包含./bin/pyspark。(
无
当通过运行pip-install-pyspark安装Spark时,它是否已经为Java和Scala安装了Spark?
是的。
tree .venv/lib/python3.6/site-packages/pyspark/bin
.venv/lib/python3.6/site-packages/pyspark/bin
├── beeline
├── beeline.cmd
├── docker-image-tool.sh
├── find-spark-home
├── find-spark-home.cmd
├── load-spark-env.cmd
├── load-spark-env.sh
├── pyspark
├── pyspark.cmd
├── pyspark2.cmd
├── run-example
├── run-example.cmd
├── spark-class
├── spark-class.cmd
├── spark-class2.cmd
├── spark-shell
├── spark-shell.cmd
├── spark-shell2.cmd
├── spark-sql
├── spark-sql.cmd
├── spark-sql2.cmd
├── spark-submit
├── spark-submit.cmd
├── spark-submit2.cmd
├── sparkR
├── sparkR.cmd
└── sparkR2.cmd
或者我需要额外安装一些东西才能用Java和Scala编程Spark应用程序吗?
要在scala中编程,需要安装scala才能真正创建应用程序jar。
我认为使用下载的版本更容易迁移到集群中运行。