将PYSPARK数据框转换为线性重试所需的训练数据格式



线性回归的pyspark文档/示例中的格式为:

print training

dataframe [标签:double,功能:向量]

我当前的火花数据帧是:

print df

dataframe [_c0:string,col1:double,col2:double,col3:double,... coln:double]

如何将我的数据框与pysparks线性回归模块?

使用

虽然某些ML框架(例如Sklearn(将一列用作目标,而许多列作为特征,Spark ML需要一个目标列和包含向量的特征列。

为了从许多列到包含列的单个向量,有一个指定的SAPRK函数称为vectorAssembler。

请参阅文档中的详细信息:http://spark.apache.org/docs/latest/api/python/python/pyspark.ml.html?highlight=vector#pyspark.ml.feature.feature.VectorAssembler

/html>

最新更新