小贝子编程

如何有效地集中(平均偏移)火花RowMatrix

本文关键字：火花 RowMatrix 有效地集中 scala apache-spark linear-algebra
更新时间 : 2023-09-15
英文 : How to efficiently center (mean-shift) a spark RowMatrix?

我想知道什么是将spark中RowMatrix的数据高效(对于大输入(，do库或者已经存在这样的功能？到目前为止，我只想定义一个函数，然后用map做减法意思是，但这有效吗？

我想这样做是为了以后在给定矩阵。

编辑：在这里，我发现了一些通过前面提到的方法(使用地图(进行均值偏移的东西：

def subPairs = (vPair: (Double, Double)) => vPair._1 - vPair._2
def subMean = (v: Vector) => Vectors.dense(v.toArray.zip(mean.toArray).map(subPairs))
val stdData = rows.map(subMean)

来源：https://github.com/apache/spark/pull/17907/commits/956ce87cd151a9b30d181618aad7ef2a7ee859dc

提前感谢

提取行：

val mat: RowMatrix = ???
val rows = mat.rows

适合StadardScalerModel

import org.apache.spark.mllib.feature.StandardScaler
val scaler = new StandardScaler(withMean = true, withStd = false).fit(rows)

缩放

scaler.transform(rows)

如何有效地集中(平均偏移)火花RowMatrix

相关内容

最新更新

热门标签：