如何将行类型转换为矢量以馈送到 KMeans



当我尝试将 df2 馈送到 kmeans 时,出现以下错误

clusters = KMeans.train(df2, 10, maxIterations=30,
                        runs=10, initializationMode="random")

我得到的错误:

Cannot convert type <class 'pyspark.sql.types.Row'> into Vector

DF2 是按如下方式创建的数据帧:

df = sqlContext.read.json("data/ALS3.json")
df2 = df.select('latitude','longitude')
df2.show()

     latitude|       longitude|
   60.1643075|      24.9460844|
   60.4686748|      22.2774728|

如何将这两列转换为矢量并将其提供给 KMeans?

ML

问题是你错过了文档的示例,很明显,该方法train需要一个带有Vector作为功能的DataFrame

要修改当前数据的结构,您可以使用矢量汇编器。在您的情况下,它可能是这样的:

from pyspark.sql.functions import *
vectorAssembler = VectorAssembler(inputCols=["latitude", "longitude"],
                                  outputCol="features")
# For your special case that has string instead of doubles you should cast them first.
expr = [col(c).cast("Double").alias(c) 
        for c in vectorAssembler.getInputCols()]
df2 = df2.select(*expr)
df = vectorAssembler.transform(df2)

此外,您还应该使用类 MinMaxScaler 规范化您的features以获得更好的结果。

MLLib

为了使用MLLib实现这一点,您需要首先使用map函数,将所有string值转换为Double,并将它们合并到DenseVector中。

rdd = df2.map(lambda data: Vectors.dense([float(c) for c in data]))

在此之后,您可以使用 rdd 变量训练 MLlib 的 KMeans模型。

我让 PySpark 2.3.1 在数据帧上执行 KMeans,如下所示:

  1. 编写要包含在聚类分析中的列的列表:
feat_cols = ['latitude','longitude']`
  1. 您需要所有列都是数值
expr = [col(c).cast("Double").alias(c) for c in feat_cols]
df2 = df2.select(*expr)
  1. 使用 mllib.linalg.Vectors 创建您的特征向量:
from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=feat_cols, outputCol="features")
df3 = assembler.transform(df2).select('features')
    您应该规范化
  1. 您的功能,因为规范化并不总是必需的,但它很少受到伤害(更多关于这里):
from pyspark.ml.feature import StandardScaler
scaler = StandardScaler(
    inputCol="features",
    outputCol="scaledFeatures",
    withStd=True,
    withMean=False)
scalerModel = scaler.fit(df3)
df4 = scalerModel.transform(df3).drop('features')
                     .withColumnRenamed('scaledFeatures', 'features')
  1. 将数据帧对象df4转换为密集的矢量 RDD:
from pyspark.mllib.linalg import Vectors
data5 = df4.rdd.map(lambda row: Vectors.dense([x for x in row['features']]))
  1. 使用获取的RDD对象作为KMeans训练的输入:
from pyspark.mllib.clustering import KMeans
model = KMeans.train(data5, k=3, maxIterations=10)
  1. 示例:对向量空间中的点 p 进行分类:
prediction = model.predict(p)

相关内容

  • 没有找到相关文章

最新更新