Spark DataFrame通过GroupBy先删除重复项



我正在使用groupBy函数从spark DataFrame中删除重复项。对于每组,我只想坐第一排,这将是最近的一排。

我不想执行max()聚合,因为我知道结果已经存储在Cassandra中,并且希望避免不必要的计算。看到这种使用熊猫的方法,这正是我所追求的,除了在Spark中。

df = sqlContext.read
            .format("org.apache.spark.sql.cassandra")
            .options(table="table", keyspace="keyspace")
            .load()
            .groupBy("key")
            #what goes here?

只有dropDuplicates才能完成这项工作。

尝试df.dropDuplicates(Seq("column")).show

查看此问题以了解更多详细信息。

相关内容

  • 没有找到相关文章

最新更新