Spark(Scala)三个分开的RDD [org.apache.spark.mllib.linalg.vector]到

我有三个分离的rdd [mllib .... vectors]，我需要将它们组合为一个rdd [mllib vector]。

val vvv = my_ds.map(x=>(scaler.transform(Vectors.dense(x(0))),Vectors.dense((x(1)/bv_max_2).toArray),Vectors.dense((x(2)/bv_max_1).toArray)))

更多信息：鳞片=>标准标准bv_max _...不过是Breeze Lib的密度向量，以防归一化（X/MAX（X））

现在我需要将它们全部作为一个我得到（[1。]，[2。]，[3。]）和[[1。]，[2。]，[3。]]但是我需要[1.，2。，3。]作为一个向量

最后我发现...我不知道这是最好的。

我有3D数据集，我需要在两个维度上执行X/MAX（X）归一化，并将标准标准应用程序应用于另一个维度。我的问题是，最后我有3个分开的向量，例如：[[1.0]，[4,0]，[5.0]]我更改了上述代码为：

val vvv = dsx.map(x=>scaler.transform(Vectors.dense(x.days_d)).toArray ++ (x.freq_d/bv_max_freq).toArray ++ (x.food_d/bv_max_food).toArray).map(x=>Vectors.dense(x(0),x(1),x(2)))

相关内容

最新更新

热门标签：