我是PySpark数据帧的新手,我正在关注此链接中的一个示例。在此链接中,他们正在使用熊猫数据帧,而我想使用 Spark 数据帧实现相同的目标。我遇到了想要转置表格的问题,我找不到更好的方法来做到这一点。由于列太多,我发现很难实现和理解 Pivot。有没有更好的方法可以做到这一点?我可以在集群环境中使用 Pyspark 中的熊猫吗?
在 pyspark API 中,pyspark.mllib.linalg.distributed.BlockMatrix
具有转置功能。如果您的 DF 具有列id, features
bm_transpose = IndexedRowMatrix(df.rdd.map(lambda x:(x[0],
Vectors.dense(x[1])))).toBlockMatrix(2,2).transpose()