我正在使用齐柏林飞艇 0.7.1 和 Spark 2.1.0。
我在数据帧"数据集"中有一些数据:
+-------+-------+-------+-------+
| index |var 1 |var 2 |var 3 |
+-------+-------+-------+-------+
| 0 | 0 | 1 | 0 |
+-------+-------+-------+-------+
| 1 | 0 | 1 | 0 |
+-------+-------+-------+-------+
| 2 | 1 | 0 | 1 |
+-------+-------+-------+-------+
为了进行线性回归,我想将每一列都放在一个向量列中:
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=['var 1', 'var 2', 'var 3'], outputCol='features')
output = assembler.transform(dataset)
好吧,在齐柏林飞艇运行这个之后,我无法运行其他段落。我必须重新启动我的解释器...如果有人知道问题可能来自哪里。
谢谢!
齐
柏林飞艇的0.7.2版本应该可以解决您的问题。我们遇到了同样的问题,我们只是使用相同的版本和这次升级对其进行了测试,这很好。
问候