我使用Spark, Scala来处理数据。我有一个问题想不明白。我有一个数据框架,它是一列:
data
1
2
3
4
5
我希望它是一个向量(1.0, 2.0, 3.0, 4.0, 5.0)
我如何实现它?我试着df.collect().toVector
或rdd.foreach
,但每次它返回给我一个向量数组[1,0],[2.0],[3.0],[4.0],[5.0],而不是一个向量。
这是发生的,因为当你collect
一个数据框你得到行数组。您需要从行对象中提取值。
df.collect().map(x => x.getDouble(0)).toVector