如何仅在新批次上重新培训模型(不使用先前的培训数据集)在Spark流中

我正在尝试编写我的第一个建议模型（SPARK 2.0.2），我想知道是否可能在模型详细阐述我所有的RDD时，在初始火车之后，仅与未来火车的三角洲一起工作。

让我通过一个示例解释：

问题是，是否可以以某种方式执行步骤4？

我的理解是，只有机器学习算法才有可能支持流媒体培训，例如streamingkmeans或StreamingLogisticRogistregressionwithsgd。

引用其文档（请参阅上面的活动引用）：

（streamLogisticRegressionWithSGD）训练或预测流数据上的逻辑回归模型。培训使用随机梯度下降来根据Dstream的每批传入数据来更新模型（有关模型方程的LogisticRegressionWithSGD）

流媒体提供了配置流k-均值分析，训练流媒体模型并使用模型对流数据进行预测的方法。

我对algorihtms感到担心的是，它们属于org.apache.spark.mllib.clustering软件包，该软件包现在已弃用（因为它基于RDD的不是基于数据框架）。我不知道他们是否有jiras用dataframe对其进行改造。

相关内容