我想知道什么是将spark中RowMatrix的数据高效(对于大输入(,do库或者已经存在这样的功能?到目前为止,我只想定义一个函数,然后用map做减法意思是,但这有效吗?
我想这样做是为了以后在给定矩阵。
编辑:在这里,我发现了一些通过前面提到的方法(使用地图(进行均值偏移的东西:
def subPairs = (vPair: (Double, Double)) => vPair._1 - vPair._2
def subMean = (v: Vector) => Vectors.dense(v.toArray.zip(mean.toArray).map(subPairs))
val stdData = rows.map(subMean)
来源:https://github.com/apache/spark/pull/17907/commits/956ce87cd151a9b30d181618aad7ef2a7ee859dc
提前感谢
提取行:
val mat: RowMatrix = ???
val rows = mat.rows
适合StadardScalerModel
import org.apache.spark.mllib.feature.StandardScaler
val scaler = new StandardScaler(withMean = true, withStd = false).fit(rows)
缩放
scaler.transform(rows)