解压缩列表以从火花数据框中选择多个列



我有一个火花数据框df。有没有办法使用这些列的列表来选择几列?

scala> df.columns
res0: Array[String] = Array("a", "b", "c", "d")

我知道我可以做像df.select("b", "c")这样的事情。但是假设我有一个包含几个列名的列表val cols = List("b", "c"),有没有办法将其传递给df.select? df.select(cols)引发错误。类似于 python 中的df.select(*cols)

使用 df.select(cols.head, cols.tail: _*)

让我知道它是否有效:)

@Ben的解释:

关键是选择的方法签名:

select(col: String, cols: String*)

cols:String*条目采用可变数量的参数。 :_*解压缩参数,以便可以由此参数处理它们。非常类似于在python中解压缩*args。有关其他示例,请参阅此处和此处。

你可以像这样键入字符串来激发列:

import org.apache.spark.sql.functions._
df.select(cols.map(col): _*)

我刚刚学到的另一个选项。

import org.apache.spark.sql.functions.col
val columns = Seq[String]("col1", "col2", "col3")
val colNames = columns.map(name => col(name))
val df = df.select(colNames:_*)

首先将字符串数组转换为 Spark 数据集列表 列类型如下

String[] strColNameArray = new String[]{"a", "b", "c", "d"};
List<Column> colNames = new ArrayList<>();
for(String strColName : strColNameArray){
    colNames.add(new Column(strColName));
}

然后在 select 语句中使用 JavaConversions 函数转换列表,如下所示。您需要以下导入语句。

import scala.collection.JavaConversions;
Dataset<Row> selectedDF = df.select(JavaConversions.asScalaBuffer(colNames ));
您可以将类型

Column* 的参数传递给 select

val df = spark.read.json("example.json")
val cols: List[String] = List("a", "b")
//convert string to Column
val col: List[Column] = cols.map(df(_))
df.select(col:_*)

你可以这样做

String[] originCols = ds.columns();
ds.selectExpr(originCols)

火花选择Exp

源代码
     /**
   * Selects a set of SQL expressions. This is a variant of `select` that accepts
   * SQL expressions.
   *
   * {{{
   *   // The following are equivalent:
   *   ds.selectExpr("colA", "colB as newName", "abs(colC)")
   *   ds.select(expr("colA"), expr("colB as newName"), expr("abs(colC)"))
   * }}}
   *
   * @group untypedrel
   * @since 2.0.0
   */
  @scala.annotation.varargs
  def selectExpr(exprs: String*): DataFrame = {
    select(exprs.map { expr =>
      Column(sparkSession.sessionState.sqlParser.parseExpression(expr))
    }: _*)
  }

是的,你可以在scala中使用.select

使用 .head.tail 选择 List() 中提到的整个值

val cols = List("b", "c")
df.select(cols.head,cols.tail: _*)

解释

准备一个列表,其中列出了所有需求功能,然后使用 * 使用 Spark 内置函数,参考如下。

lst = ["col1", "col2", "col3"]
result = df.select(*lst)

有时我们收到错误:"分析异常:无法解析"col1给定输入列"尝试将要素转换为字符串类型,如下所述:

from pyspark.sql.functions import lit
from pyspark.sql.types import StringType
for i in lst:
   if i not in df.columns:
      df = df.withColumn(i, lit(None).cast(StringType()))

最后,您将获得具有所需功能的数据集。

相关内容

  • 没有找到相关文章

最新更新