如何在Spark中从数组列中选择字段的子集



假设我有一个DataFrame,如下所示:

case class SubClass(id:String, size:Int,useless:String)
case class MotherClass(subClasss: Array[SubClass])
val df = sqlContext.createDataFrame(List(
      MotherClass(Array(
        SubClass("1",1,"thisIsUseless"),
        SubClass("2",2,"thisIsUseless"),
        SubClass("3",3,"thisIsUseless")
      )),
      MotherClass(Array(
        SubClass("4",4,"thisIsUseless"),
        SubClass("5",5,"thisIsUseless")
      ))
    ))

模式为:

root
 |-- subClasss: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- id: string (nullable = true)
 |    |    |-- size: integer (nullable = false)
 |    |    |-- useless: string (nullable = true)

我正在寻找一种只选择字段子集的方法:数组列subClasssidsize,但保留嵌套的数组结构。得到的模式是:

root
     |-- subClasss: array (nullable = true)
     |    |-- element: struct (containsNull = true)
     |    |    |-- id: string (nullable = true)
     |    |    |-- size: integer (nullable = false)

我试过做

df.select("subClasss.id","subClasss.size")

但这将阵列subClasss拆分为两个阵列:

root
 |-- id: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- size: array (nullable = true)
 |    |-- element: integer (containsNull = true)

有没有一种方法可以保持原点结构,只消除useless字段?看起来像:

df.select("subClasss.[id,size]")

谢谢你抽出时间。

Spark>=2.4

可以将arrays_zipcast:一起使用

import org.apache.spark.sql.functions.arrays_zip
df.select(arrays_zip(
  $"subClasss.id", $"subClasss.size"
).cast("array<struct<id:string,size:int>>"))

其中cast需要重命名嵌套字段-如果没有它,Spark将使用自动生成的名称01。。。CCD_ 11。

火花<2.4

您可以使用这样的UDF:

import org.apache.spark.sql.Row
case class Record(id: String, size: Int)
val dropUseless = udf((xs: Seq[Row]) =>  xs.map{
  case Row(id: String, size: Int, _) => Record(id, size)
})
df.select(dropUseless($"subClasss"))

相关内容

  • 没有找到相关文章

最新更新