我正在使用groupBy
函数从spark DataFrame中删除重复项。对于每组,我只想坐第一排,这将是最近的一排。
我不想执行max()
聚合,因为我知道结果已经存储在Cassandra中,并且希望避免不必要的计算。看到这种使用熊猫的方法,这正是我所追求的,除了在Spark中。
df = sqlContext.read
.format("org.apache.spark.sql.cassandra")
.options(table="table", keyspace="keyspace")
.load()
.groupBy("key")
#what goes here?
只有dropDuplicates
才能完成这项工作。
尝试df.dropDuplicates(Seq("column")).show
。
查看此问题以了解更多详细信息。