如何在mac上安装和使用pyspark



我正在参加一门机器学习课程,并试图安装pyspark来完成一些课堂作业。我从这个链接下载了pyspark,解压缩后放在我的主目录中,并在我的.bash_profile.中添加了以下几行

export SPARK_PATH=~/spark-3.3.0-bin-hadoop2.6 
export PYSPARK_DRIVER_PYTHON="jupyter" 
export PYSPARK_DRIVER_PYTHON_OPTS="notebook" 

然而,当我尝试运行命令时:

pyspark

要启动会话,我会收到错误:

-bash: pyspark: command not found

有人能告诉我需要做什么才能让pyspark在我的本地机器上工作吗?非常感谢。

您可能缺少PATH条目。以下是我为让pyspark在我的Mac上工作所做的环境变量更改:

export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk-11.0.6.jdk/Contents/Home/
export SPARK_HOME=/opt/spark-3.3.0-bin-hadoop3
export PATH=$JAVA_HOME/bin:$SPARK_HOME:$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON='jupyter'
export PYSPARK_DRIVER_PYTHON_OPTS='notebook --no-browser --port=8889'

还要确保安装了Java SE 8+和Python 3.5+。

/opt/spark-3.3.0-bin-hadoop3/sbin/start-master.sh启动服务器。然后运行pyspark,在web浏览器中复制并粘贴屏幕上显示的URL。

最新更新