我想通过Pyspark利用NLTK在Hadoop集群上执行NLP任务。我们使用 Anaconda 发行版。集群处于气隙环境中,因此我无法运行nltk.download()
。
我想我需要将数据下载到可以访问互联网的辅助机器上。我从哪里下载它?我如何在Hadoop集群上安装它?我只是复制文件吗?还是 nltk 需要知道数据在哪里?是否需要在所有节点上复制数据?
我从哪里下载它?
您可以在计算机上执行nltk.download()
,数据将下载到文件夹nltk_data
下的主目录中
我如何在Hadoop集群上安装它?我只是复制文件吗?还是 nltk 需要知道数据在哪里?
如果将nltk_data
复制到执行进程的用户下计算机上的主文件夹,则应该足够了。如果无法,可以使用环境变量NLTK_DATA
设置位置。请参阅如何从代码配置 nltk 数据目录?有关此内容的更多讨论
是否需要在所有节点上复制数据?
是的