SPark开发的移植模型



我可以访问一个Spark集群,在那里我被要求训练一个模型。我还没有学会这个过程,但在走上这条路之前,我需要了解一件事。

如果我要将生成的模型保存到磁盘上,那么我可以将其带到我的计算机(只是一台PC(上吗?该计算机在标准Anaconda Python发行版的顶部安装了PySpark,并使用这个保存的模型文件对简单的数据集进行评分?这种方法行得通吗?

请告知。谢谢

是的,我已经能够在集群和本地机器上使用pyspark 3.0.1使其工作。

您可以依赖管道持久性功能

持久化管道:

pipeline = Pipeline(stages=stages)
predictor = pipeline.fit(training_set)
predictor.save(path)

管道将被持久化到一个文件夹中,您可能需要对其进行标记以将其返回到本地计算机。然后在您的本地机器上:

from pyspark.ml import PipelineModel
model = PipelineModel.load(path)
model.transform(df)

根据文档,您应该能够在scala/java/python(甚至现在的R(之间无缝切换模型。如果您在集群和本地机器之间依赖不同的spark版本,我建议您仔细阅读向后兼容性文档。

最新更新