EMR PySpark "ModuleNotFoundError: No module named 'spacy'"



我一直在尝试将 Spacy 安装到我的 EMR 集群上以运行 Pyspark 作业,但没有成功。 我对 EMR 的引导操作如下所示

pip install --upgrade pip
sudo conda install -c conda-forge spacy
sudo python3 -m spacy download en_core_web_sm
sudo python3 -m spacy download en 
sudo python3 -m pip install -U spacy
sudo python3 -m pip install -U boto3
sudo python3 -m pip install -U pandas
sudo python3 -m spacy download en_core_web_sm
sudo python3 -m spacy download en

正如您在上面看到的,我一直在尝试通过 pip 和 conda 安装它,但似乎都不起作用。 令人惊讶的是,当我使用 jupyter 笔记本而不是尝试提交我的 pyspark 作业作为 EMR 的步骤时,它可以工作。

我遇到了类似的问题。一些可能起作用的事情:

  1. 检查 EMR 中的标准输出、标准文件,关于引导操作。在群集的摘要部分下提到 - 配置详细信息 - LOG URI
  2. 显然,Spacy具有Cython依赖项,并且不会自动下载。因此,包括以下命令有所帮助:
sudo python3 -m pip install --upgrade pip
sudo python3 -m pip install --upgrade pip setuptools

sudo python3 -m pip install wheel

sudo python3 -m pip install -U Cython
sudo python3 -m pip install -U spacy==2.3.5
sudo python3 -m spacy download en_core_web_sm 

相关内容

最新更新