我已经用Anaconda作为附加组件启动了一个Dataproc集群。我创建了一个虚拟环境。在 anaconda 中并在其中安装了 RDkit。现在我的问题是,当我打开python终端并尝试这样做时:
from pyspark import SparkContext
它抛出错误:
回溯(最近一次调用(:文件 ",第 1 行,在 ModuleNotFoundError:没有名为"pyspark"的模块
我可以在Anaconda venv中安装PySpark,然后它可以工作,但我想在Dataproc上使用预装的PySpark。如何解决这个问题?
要在新的 Conda 环境中使用 Dataproc 的 PySpark,您需要在此环境中安装file:///usr/lib/spark/python
包:
conda create -c rdkit -n rdkit-env rdkit
conda activate rdkit-env
sudo "${CONDA_PREFIX}/bin/pip" install -e "file:///usr/lib/spark/python"