Scala-Spark Dstream操作类似于R中的Cbind

1)我正在尝试使用MLlib随机林。我的最终输出应该有2列

id, predicted_value 
1,  0.5 
2,  0.4

我的特征集是训练数据和得分---训练，得分但是，当我训练和得分时，我放弃了id字段，因为它不能用作特征，因为它对每一行都是唯一的，并且在预测方面没有智能，现在我得到了预测得分的

我的得分输出看起来像

predicted_value 
0.5 
0.4

但我想把它与id 联系起来

我在单独的数据流中有id字段，在单独的数字流中有predicted_value。如何将其相互绑定，我没有任何列字段来进行连接。

现在我该怎么把它绑起来。例如，R有一个函数cbind，它可以绑定来自不同数据帧的2列

x<-data.frame(cbind(testIds,p$p1))

有可能吗？

2) 我使用MLlib随机森林模型来预测使用火花流。最后，我想把Dstream&预测Dstream一起用于进一步的下游处理。我该怎么做？

提前谢谢。

您可以使用DStream.transform并预测：

dstream.transform(rdd =>  {
val predictions = model.predict(rdd)
rdd.zip(predictions)
})

相关内容