更新基于Mlib数据帧的PySpark(2.2.0)中的机器学习模型

我建立了一个基于聚类的机器学习模型，&现在只想定期(每天(用新数据更新它。我正在使用PySpark Mlib，&在Spark中找不到满足此需求的任何方法。

注意，scikit learn中提供了必需的方法"partial_fit"，但Spark中没有。

我不赞成添加新的数据&然后每天重新构建模型，因为这将增加数据大小&在计算上将是昂贵的。

请给我推荐一种使用Spark Mlib进行模型更新或在线学习的有效方法？

您不能更新任意模型。

在一些精选型号上，这是可行的。在某些情况下，如果你在准确性上接受一些损失，它就会起作用。但在其他模型上，唯一的方法是完全重建它。

例如，支持向量机。该模型仅存储支持向量。更新时，您还需要所有的非支持向量来找到最佳模型。

例如，这就是为什么每晚建造新模型是相当常见的。

流媒体被高估了。特别是k均值。完全胡说八道做网上k均值与"大"(lol(数据。因为新点的效果几乎为零，你还不如每晚做一批。这些只是毫无关联的学术玩具。

相关内容