我有以下SQL查询:
SELECT SECTOR, COUNT(REGION) FROM SAMPLE_TABLE GROUP BY SECTOR HAVING COUNT(REGION) > 1
我想使用SparkSQL的DataFrame API将其转换为Spark。我该怎么做?
也许这可以工作:
val df = sqlContext.table("SAMPLE_TABLE")
val newDF = df
.groupBy("sector")
.agg(count("region").as("cnt"))
.where($"cnt" > 1)
有关更多信息,您可以查看DataFrame API文档和functions
包文档
怎么样
sqlContext.sql("SELECT SECTOR, COUNT(REGION) FROM SAMPLE_TABLE GROUP BY SECTOR HAVING COUNT(REGION) > 1
").take(1000).foreach(println)
使用API是什么意思?哪一个?