如何有效地集中(平均偏移)火花RowMatrix



我想知道什么是将spark中RowMatrix的数据高效(对于大输入(,do库或者已经存在这样的功能?到目前为止,我只想定义一个函数,然后用map做减法意思是,但这有效吗?

我想这样做是为了以后在给定矩阵。

编辑:在这里,我发现了一些通过前面提到的方法(使用地图(进行均值偏移的东西:

def subPairs = (vPair: (Double, Double)) => vPair._1 - vPair._2
def subMean = (v: Vector) => Vectors.dense(v.toArray.zip(mean.toArray).map(subPairs))
val stdData = rows.map(subMean)

来源:https://github.com/apache/spark/pull/17907/commits/956ce87cd151a9b30d181618aad7ef2a7ee859dc

提前感谢

提取行:

val mat: RowMatrix = ???
val rows = mat.rows

适合StadardScalerModel

import org.apache.spark.mllib.feature.StandardScaler
val scaler = new StandardScaler(withMean = true, withStd = false).fit(rows)

缩放

scaler.transform(rows)

相关内容

  • 没有找到相关文章

最新更新