线性回归的pyspark文档/示例中的格式为:
print training
dataframe [标签:double,功能:向量]
我当前的火花数据帧是:
print df
dataframe [_c0:string,col1:double,col2:double,col3:double,... coln:double]
如何将我的数据框与pysparks线性回归模块?
虽然某些ML框架(例如Sklearn(将一列用作目标,而许多列作为特征,Spark ML需要一个目标列和包含向量的特征列。
为了从许多列到包含列的单个向量,有一个指定的SAPRK函数称为vectorAssembler。
请参阅文档中的详细信息:http://spark.apache.org/docs/latest/api/python/python/pyspark.ml.html?highlight=vector#pyspark.ml.feature.feature.VectorAssembler
/html>