我正在尝试按照我已经阅读的一些说明安装graphframes软件包。
我的第一次尝试是在命令行中执行此操作:
pyspark--packages graphframes:graphframes:0.5.0-spark2.1-s_2.11
这工作得很好,下载在机器中成功完成。
但是,当我尝试在 Jupyter 笔记本中导入包时,它显示错误:
can't find module 'graphframes'
我的第一次尝试是将包文件夹/graphframe 复制到/site-packages 中,但我不能用简单的 cp 命令来完成。
我是使用 Spark 的新手,我确定我缺少配置的某些部分......
你能帮帮我吗?
这对我有用。
提取graphframes-xxx-xxx-xxx.jar
文件的内容。你应该得到类似的东西
graphframes
| -- examples
|-- ...
| -- __init__.py
| -- ...
压缩整个文件夹(不仅仅是内容(并随心所欲地命名。我们称之为graphframes.zip
.
然后,运行 pyspark 外壳
pyspark --py-files graphframes.zip
--packages graphframes:graphframes:0.5.0-spark2.1-s_2.11
您可能需要做
sc.addPyFile('graphframes.zip')
以前
import graphframes
最简单的方法是使用 pyspark 和 graphframe 启动 jupyter,就是从 pyspark 启动 jupyter。
只需打开终端并设置两个环境变量,然后使用graphframes包开始pyspark
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS=notebook
pyspark --packages graphframes:graphframes:0.6.0-spark2.3-s_2.11
这样做的好处是,如果您以后想通过spark-submit
运行代码,则可以使用相同的 start 命令