在 Scala 中转置数据帧

我有如下dataframe。

+---+------+------+
| ID|Field1|Field2|
+---+------+------+
|  1|     x|     n|
|  2|     a|     b|
+---+------+------+

我需要如下所示的输出

+---+-------------+------+
| ID|       Fields|values|
+---+-------------+------+
|  1|Field1,Field2|   x,n|
|  2|Field1,Field2|   a,b|
+---+-------------+------+

我对 scala 很陌生。我只需要一种方法来做到这一点。我已经在互联网上研究了有关转置的信息，但无法获得解决方案。

由于Fields列在每一行中都相同，因此您可以稍后添加它。

在这个例子中，类 Thing 有 3 个字段：id、Field1、Field2。

val sqlContext = new org.apache.spark.sql.SQLContext( sc )
import sqlContext.implicits._
import org.apache.spark.sql.functions._
val df = 
    sc
    .parallelize( List( Thing( 1, "a", "b" ), Thing( 2, "x", "y" ) ) )
    .toDF( "id", "Field1", "Field2" )

列名以相同的顺序返回，因此我们可以只取最后两个字段名

val fieldNames = 
    df
    .columns
    .takeRight( 2 )

org.apache.spark.sql.functions完成合并给定列中的数据的所有工作。

val res = 
    df
    .select( $"id", array( $"Field1", $"Field2" ) as "values" )
    .withColumn( "Fields", lit( fieldNames ) )
res.show()

结果：

+---+------+----------------+
| id|values|          Fields|
+---+------+----------------+
|  1|[a, b]|[Field1, Field2]|
|  2|[x, y]|[Field1, Field2]|
+---+------+----------------+

相关内容

最新更新

热门标签：