小贝子编程

将PYSPARK数据框转换为线性重试所需的训练数据格式

本文关键字：数据格式重试线性数据 PYSPARK 转换 pyspark
更新时间 : 2023-09-11
英文 : Converting PySpark dataframe to the training data format required for LinearRegression?

线性回归的pyspark文档/示例中的格式为：

print training

dataframe [标签：double，功能：向量]

我当前的火花数据帧是：

print df

dataframe [_c0：string，col1：double，col2：double，col3：double，... coln：double]

如何将我的数据框与pysparks线性回归模块？

使用

虽然某些ML框架(例如Sklearn(将一列用作目标，而许多列作为特征，Spark ML需要一个目标列和包含向量的特征列。

为了从许多列到包含列的单个向量，有一个指定的SAPRK函数称为vectorAssembler。

请参阅文档中的详细信息：http：//spark.apache.org/docs/latest/api/python/python/pyspark.ml.html?highlight=vector#pyspark.ml.feature.feature.VectorAssembler

/html>

相关内容