Spark(Scala)三个分开的RDD [org.apache.spark.mllib.linalg.vector]到



我有三个分离的rdd [mllib .... vectors],我需要将它们组合为一个rdd [mllib vector]。

val vvv = my_ds.map(x=>(scaler.transform(Vectors.dense(x(0))),Vectors.dense((x(1)/bv_max_2).toArray),Vectors.dense((x(2)/bv_max_1).toArray)))

更多信息:鳞片=>标准标准bv_max _...不过是Breeze Lib的密度向量,以防归一化(X/MAX(X))

现在我需要将它们全部作为一个我得到([1。],[2。],[3。])和[[1。],[2。],[3。]]但是我需要[1.,2。,3。]作为一个向量

最后我发现...我不知道这是最好的。

我有3D数据集,我需要在两个维度上执行X/MAX(X)归一化,并将标准标准应用程序应用于另一个维度。我的问题是,最后我有3个分开的向量,例如:[[1.0],[4,0],[5.0]]我更改了上述代码为:

val vvv = dsx.map(x=>scaler.transform(Vectors.dense(x.days_d)).toArray ++ (x.freq_d/bv_max_freq).toArray ++ (x.food_d/bv_max_food).toArray).map(x=>Vectors.dense(x(0),x(1),x(2)))

最新更新