在气隙环境中安装 nltk 数据



我想通过Pyspark利用NLTK在Hadoop集群上执行NLP任务。我们使用 Anaconda 发行版。集群处于气隙环境中,因此我无法运行nltk.download()

我想我需要将数据下载到可以访问互联网的辅助机器上。我从哪里下载它?我如何在Hadoop集群上安装它?我只是复制文件吗?还是 nltk 需要知道数据在哪里?是否需要在所有节点上复制数据?

我从哪里下载它?

您可以在计算机上执行nltk.download(),数据将下载到文件夹nltk_data下的主目录中

我如何在Hadoop集群上安装它?我只是复制文件吗?还是 nltk 需要知道数据在哪里?

如果将nltk_data复制到执行进程的用户下计算机上的主文件夹,则应该足够了。如果无法,可以使用环境变量NLTK_DATA设置位置。请参阅如何从代码配置 nltk 数据目录?有关此内容的更多讨论

是否需要在所有节点上复制数据?

是的

最新更新