更新基于Mlib数据帧的PySpark(2.2.0)中的机器学习模型



我建立了一个基于聚类的机器学习模型,&现在只想定期(每天(用新数据更新它。我正在使用PySpark Mlib,&在Spark中找不到满足此需求的任何方法。

注意,scikit learn中提供了必需的方法"partial_fit",但Spark中没有。

我不赞成添加新的数据&然后每天重新构建模型,因为这将增加数据大小&在计算上将是昂贵的。

请给我推荐一种使用Spark Mlib进行模型更新或在线学习的有效方法?

您不能更新任意模型。

在一些精选型号上,这是可行的。在某些情况下,如果你在准确性上接受一些损失,它就会起作用。但在其他模型上,唯一的方法是完全重建它。

例如,支持向量机。该模型仅存储支持向量。更新时,您还需要所有的非支持向量来找到最佳模型。

例如,这就是为什么每晚建造新模型是相当常见的。

流媒体被高估了。特别是k均值。完全胡说八道做网上k均值与"大"(lol(数据。因为新点的效果几乎为零,你还不如每晚做一批。这些只是毫无关联的学术玩具。

最新更新