如何在没有互联网连接的情况下安装离线Spark NLP包。我已经下载了包(recognizee_entities_dl
(并将其上传到集群。
我已经使用pip install spark-nlp==2.5.5
安装了Spark NLP。我正在使用PySpark,无法从集群中下载软件包。
已经尝试过;
pipeline = PretrainedPipeLine.from_disk('/path/to/recognize_entities_dl')
pipeline = PretrainedPipeLine.load('/path/to/recognize_entities_dl')
错误:
'PretrainedPipeline' has no attribute 'load'
Input path does not exist:
hdfs://...../recognize_entities_dl_en_2.4.3_2.4_1584626752821/metatdata
查看您的错误:
hdfs://...../recognize_entities_dl_en_2.4.3_2.4_1584626752821/metatdata
metatdata您应该通过删除一个额外的"来更改为元数据;t";。
此外,您可以在";identification_enties_dl_en_2.4.32.4_1584626752821";
这表明它适用于Spark NLP 2.4.3
但是,在问题中,你提到你正在使用
spark-nlp==2.5.5
只要就可以
2.5.5 >= 2.4.3
但有时也会引发问题。
同样2.4在";identification_enties_dl_en_2.4.3_2.41584626752821";
这表明它适用于Apache Spark 2.4
Spark NLP库是针对Apache Spark 2.4.x构建和编译的。这就是为什么模型和管道仅适用于2.4.x版本