1)我正在尝试使用MLlib随机林。我的最终输出应该有2列
id, predicted_value
1, 0.5
2, 0.4
我的特征集是训练数据和得分---训练,得分但是,当我训练和得分时,我放弃了id字段,因为它不能用作特征,因为它对每一行都是唯一的,并且在预测方面没有智能,现在我得到了预测得分的
我的得分输出看起来像
predicted_value
0.5
0.4
但我想把它与id 联系起来
我在单独的数据流中有id字段,在单独的数字流中有predicted_value。如何将其相互绑定,我没有任何列字段来进行连接。
现在我该怎么把它绑起来。例如,R有一个函数cbind,它可以绑定来自不同数据帧的2列
x<-data.frame(cbind(testIds,p$p1))
有可能吗?
2) 我使用MLlib随机森林模型来预测使用火花流。最后,我想把Dstream&预测Dstream一起用于进一步的下游处理。我该怎么做?
提前谢谢。
您可以使用DStream.transform
并预测:
dstream.transform(rdd => {
val predictions = model.predict(rdd)
rdd.zip(predictions)
})