如何使用scala API在sparksql中编写大于1的特定列的计数



我有以下SQL查询:

SELECT SECTOR, COUNT(REGION) FROM SAMPLE_TABLE GROUP BY SECTOR HAVING COUNT(REGION) > 1

我想使用SparkSQL的DataFrame API将其转换为Spark。我该怎么做?

也许这可以工作:

val df = sqlContext.table("SAMPLE_TABLE")
val newDF = df
  .groupBy("sector")
  .agg(count("region").as("cnt"))
  .where($"cnt" > 1)

有关更多信息,您可以查看DataFrame API文档和functions包文档

怎么样

    sqlContext.sql("SELECT SECTOR, COUNT(REGION) FROM SAMPLE_TABLE GROUP BY SECTOR HAVING COUNT(REGION) > 1
").take(1000).foreach(println)

使用API是什么意思?哪一个?

相关内容

  • 没有找到相关文章

最新更新