Scala-Spark Dstream操作类似于R中的Cbind



1)我正在尝试使用MLlib随机林。我的最终输出应该有2列

id, predicted_value 
1,  0.5 
2,  0.4 

我的特征集是训练数据和得分---训练,得分但是,当我训练和得分时,我放弃了id字段,因为它不能用作特征,因为它对每一行都是唯一的,并且在预测方面没有智能,现在我得到了预测得分的

我的得分输出看起来像

predicted_value 
0.5 
0.4 

但我想把它与id 联系起来

我在单独的数据流中有id字段,在单独的数字流中有predicted_value。如何将其相互绑定,我没有任何列字段来进行连接。

现在我该怎么把它绑起来。例如,R有一个函数cbind,它可以绑定来自不同数据帧的2列

x<-data.frame(cbind(testIds,p$p1)) 

有可能吗?

2) 我使用MLlib随机森林模型来预测使用火花流。最后,我想把Dstream&预测Dstream一起用于进一步的下游处理。我该怎么做?

提前谢谢。

您可以使用DStream.transform并预测:

dstream.transform(rdd =>  {
val predictions = model.predict(rdd)
rdd.zip(predictions)
})

最新更新