如何仅在新批次上重新培训模型(不使用先前的培训数据集)在Spark流中



我正在尝试编写我的第一个建议模型(SPARK 2.0.2),我想知道是否可能在模型详细阐述我所有的RDD时,在初始火车之后,仅与未来火车的三角洲一起工作。

让我通过一个示例解释:

  1. 第一次批次执行第一个培训课程,所有RDD(200000)元素),当系统启动时。
  2. 在火车的尽头保存了模型。
  3. 第二个批处理应用程序(火花流)加载模型以前保存并在运动队列中收听。
  4. 当新元素到达时,第二批应执行训练(在三角洲模式下?!)没有加载所有200000个元素以前只是使用模型和一个新元素。
  5. 在火车的尽头保存了更新的模型。

问题是,是否可以以某种方式执行步骤4?

我的理解是,只有机器学习算法才有可能支持流媒体培训,例如streamingkmeans或StreamingLogisticRogistregressionwithsgd。

引用其文档(请参阅上面的活动引用):

(streamLogisticRegressionWithSGD)训练或预测流数据上的逻辑回归模型。培训使用随机梯度下降来根据Dstream的每批传入数据来更新模型(有关模型方程的LogisticRegressionWithSGD)

流媒体提供了配置流k-均值分析,训练流媒体模型并使用模型对流数据进行预测的方法。

我对algorihtms感到担心的是,它们属于org.apache.spark.mllib.clustering软件包,该软件包现在已弃用(因为它基于RDD的不是基于数据框架)。我不知道他们是否有jiras用dataframe对其进行改造。

最新更新