pyspark 错误:"数据帧"对象没有属性"map"



我使用pyspark 2.0通过读取csv来创建一个DataFrame对象:

data = spark.read.csv('data.csv', header=True)

我使用

找到数据的类型
type(data)

结果

pyspark.sql.dataframe.DataFrame

我正试图将数据中的一些列转换为LabeledPoint,以便应用分类。

from pyspark.sql.types import *    
from pyspark.sql.functions import loc
from pyspark.mllib.regression import LabeledPoint
data.select(['label','features']).
              map(lambda row:LabeledPoint(row.label, row.features))

我遇到了这个问题:

AttributeError: 'DataFrame' object has no attribute 'map'

知道是什么错误吗?是否有一种方法来生成一个标签点从数据框架,以执行分类?

使用.rdd.map:

>>> data.select(...).rdd.map(...)

DataFrame.map在Spark 2中被移除

相关内容

  • 没有找到相关文章

最新更新