在 Dataproc 上的 Anaconda venv 中导入 PySpark 错误



我已经用Anaconda作为附加组件启动了一个Dataproc集群。我创建了一个虚拟环境。在 anaconda 中并在其中安装了 RDkit。现在我的问题是,当我打开python终端并尝试这样做时:

from pyspark import SparkContext

它抛出错误:

回溯(最近一次调用(:文件 ",第 1 行,在 ModuleNotFoundError:没有名为"pyspark"的模块

我可以在Anaconda venv中安装PySpark,然后它可以工作,但我想在Dataproc上使用预装的PySpark。如何解决这个问题?

要在新的 Conda 环境中使用 Dataproc 的 PySpark,您需要在此环境中安装file:///usr/lib/spark/python包:

conda create -c rdkit -n rdkit-env rdkit
conda activate rdkit-env
sudo "${CONDA_PREFIX}/bin/pip" install -e "file:///usr/lib/spark/python"

最新更新