SPark开发的移植模型

我可以访问一个Spark集群，在那里我被要求训练一个模型。我还没有学会这个过程，但在走上这条路之前，我需要了解一件事。

如果我要将生成的模型保存到磁盘上，那么我可以将其带到我的计算机(只是一台PC(上吗？该计算机在标准Anaconda Python发行版的顶部安装了PySpark，并使用这个保存的模型文件对简单的数据集进行评分？这种方法行得通吗？

请告知。谢谢

是的，我已经能够在集群和本地机器上使用pyspark 3.0.1使其工作。

您可以依赖管道持久性功能

持久化管道：

pipeline = Pipeline(stages=stages)
predictor = pipeline.fit(training_set)
predictor.save(path)

管道将被持久化到一个文件夹中，您可能需要对其进行标记以将其返回到本地计算机。然后在您的本地机器上：

from pyspark.ml import PipelineModel
model = PipelineModel.load(path)
model.transform(df)

根据文档，您应该能够在scala/java/python(甚至现在的R(之间无缝切换模型。如果您在集群和本地机器之间依赖不同的spark版本，我建议您仔细阅读向后兼容性文档。

相关内容