如何在一次运行中获得多个查询

例如，我有一个如下的数据帧，

df
DataFrame[columnA: int, columnB: int]

如果我必须做两次检查。我将像下面这样对数据进行两次检查，

df.where(df.columnA == 412).count()
df.where(df.columnB == 25).count()

在正常代码中，我会有两个计数变量，并在True上递增。如何使用spark数据帧？如果有人能链接到正确的文档，我们将不胜感激。很高兴看到python或scala。

例如：

import org.apache.spark.sql.functions.sum
val df = sc.parallelize(Seq(
  (412, 0),
  (0,   25), 
  (412, 25), 
  (0,   25)
)).toDF("columnA", "columnB")
df.agg(
  sum(($"columnA" === 412).cast("long")).alias("columnA"),
  sum(($"columnB" === 25).cast("long")).alias("columnB")
).show
// +-------+-------+
// |columnA|columnB|
// +-------+-------+
// |      2|      3|
// +-------+-------+

或者像这样：

import org.apache.spark.sql.functions.{count, when}
df.agg(
  count(when($"columnA" === 412, $"columnA")).alias("columnA"),
  count(when($"columnB" === 25, $"columnB")).alias("columnB")
).show
// +-------+-------+
// |columnA|columnB|
// +-------+-------+
// |      2|      3|
// +-------+-------+

我不知道任何具体的文档，但我相信你会在任何好的SQL参考中找到这一点。

@zero323的答案很准确，但为了表明最灵活的编程模型是Spark，您可以在带有lambda函数的map中作为if语句进行检查，例如（使用与上述相同的数据帧）

import org.apache.spark.sql.functions._  
val r1 = df.map(x => {
  var x0 = 0
  var x1 = 0
  if (x(0) == 412) x0=1
  if (x(1) == 25) x1=1
  (x0, x1)
}).toDF("x0", "x1").select(sum("x0"), sum("x1")).show()

这个模型几乎可以让你做任何你能想到的事情，尽管你最好坚持使用可用的特定API。

相关内容

最新更新

热门标签：