找不到模块"图形框架" -- Jupyter



我正在尝试按照我已经阅读的一些说明安装graphframes软件包。

我的第一次尝试是在命令行中执行此操作:

pyspark--packages graphframes:graphframes:0.5.0-spark2.1-s_2.11

这工作得很好,下载在机器中成功完成。

但是,当我尝试在 Jupyter 笔记本中导入包时,它显示错误:

can't find module 'graphframes'

我的第一次尝试是将包文件夹/graphframe 复制到/site-packages 中,但我不能用简单的 cp 命令来完成。

我是使用 Spark 的新手,我确定我缺少配置的某些部分......

你能帮帮我吗?

这对我有用。

提取graphframes-xxx-xxx-xxx.jar文件的内容。你应该得到类似的东西

graphframes
| -- examples
|-- ...
| -- __init__.py
| -- ...

压缩整个文件夹(不仅仅是内容(并随心所欲地命名。我们称之为graphframes.zip.

然后,运行 pyspark 外壳

pyspark --py-files graphframes.zip 
--packages graphframes:graphframes:0.5.0-spark2.1-s_2.11

您可能需要做

sc.addPyFile('graphframes.zip')

以前

import graphframes

最简单的方法是使用 pyspark 和 graphframe 启动 jupyter,就是从 pyspark 启动 jupyter。

只需打开终端并设置两个环境变量,然后使用graphframes包开始pyspark

export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS=notebook
pyspark --packages graphframes:graphframes:0.6.0-spark2.3-s_2.11

这样做的好处是,如果您以后想通过spark-submit运行代码,则可以使用相同的 start 命令

最新更新