如何仅在Apache-Spark中的DataFrame列中重复值选择第一行



考虑我确实有 dataframe包含以下数据,

val seq = Seq((1, "John"), (1, "John"), (2, "Michael"), (3, "Sham"),(4, "Dan"), (2, "Michael"), (4, "Dan"))
val rdd = sc.parallelize(seq)
val df = rdd.toDF("id","name")

我想要output AS:

1," john"

2,"迈克尔"

3," sham"

4,'dan

我如何从 dataset中仅 select row,其中允许在ID和名称column上重复。

您可以在dataframe/dataset上使用dropduplicates()。

您可能正在寻找来自数据框架的不同值。

df.distinct.orderBy("id").show();

,如果不想要结果的订购,则可以放下订单。 +---+-------+ | id| name| +---+-------+ | 1| John| | 2|Michael| | 3| Sham| | 4| Dan| +---+-------+

相关内容

  • 没有找到相关文章

最新更新