在气隙环境中安装 nltk 数据

我想通过Pyspark利用NLTK在Hadoop集群上执行NLP任务。我们使用 Anaconda 发行版。集群处于气隙环境中，因此我无法运行nltk.download()。

我想我需要将数据下载到可以访问互联网的辅助机器上。我从哪里下载它？我如何在Hadoop集群上安装它？我只是复制文件吗？还是 nltk 需要知道数据在哪里？是否需要在所有节点上复制数据？

我从哪里下载它？

您可以在计算机上执行nltk.download()，数据将下载到文件夹nltk_data下的主目录中

我如何在Hadoop集群上安装它？我只是复制文件吗？还是 nltk 需要知道数据在哪里？

如果将nltk_data复制到执行进程的用户下计算机上的主文件夹，则应该足够了。如果无法，可以使用环境变量NLTK_DATA设置位置。请参阅如何从代码配置 nltk 数据目录？有关此内容的更多讨论

是否需要在所有节点上复制数据？

是的

相关内容