Spark 将数据框列转换为标准缩放器() "Column must be of type org.apache.spark.ml.linalg.VectorUDT"的密集向量

我对Spark很陌生，我正在尝试将StandardScaler（）应用于DataFrame中的列。

+---------------+
|      DF_column|
+---------------+
| 0.114285714286|
| 0.115702479339|
| 0.267893660532|
|0.0730337078652|
| 0.124309392265|
| 0.365714285714|
| 0.111747851003|
| 0.279538904899|
| 0.134670487106|
| 0.523287671233|
| 0.404011461318|
|          0.375|
| 0.125517241379|
|0.0143266475645|
| 0.313684210526|
| 0.381088825215|
| 0.411428571429|
| 0.327683615819|
| 0.153409090909|
| 0.344827586207|
+---------------+

问题是像这样应用它会给我一个错误：

requirement failed: Input column DF_column must be a vector column.

我尝试使用 UDF，但仍然不起作用。

scaler = StandardScaler(inputCol='DF_column', 
    outputCol="scaledFeatures",withStd=True, withMean=False)

我做了 LIBSVM 的示例，但这很容易，因为 TXT 文件将功能加载为矢量。

如果你有一列标量，那么StandardScaler是一个严重的矫枉过正。您可以直接缩放：

from pyspark.sql.functions import col, stddev_samp
df.withColumn("scaled",
  col("DF_column") / df.agg(stddev_samp("DF_column")).first()[0])

但是，如果您真的想使用缩放器而不是先组装一个向量：

from pyspark.ml.feature import VectorAssembler
from pyspark.ml.feature import StandardScaler
assembler = VectorAssembler(
  inputCols=["DF_column"], outputCol="features"
)
assembled = assembler.transform(df)
scaler = StandardScaler(
  inputCol="features", outputCol="scaledFeatures",
  withStd=True, withMean=False
).fit(assembled)
scaler.transform(assembled)

相关内容

最新更新

热门标签：