小贝子编程

如何仅在Apache-Spark中的DataFrame列中重复值选择第一行

本文关键字：选择一行 Apache-Spark 何仅中的 DataFrame mysql scala apache-spark-sql
更新时间 : 2023-09-10
英文 : How to select only first row from repeating values in columns of dataframe in apache-spark?

考虑我确实有 dataframe包含以下数据，

val seq = Seq((1, "John"), (1, "John"), (2, "Michael"), (3, "Sham"),(4, "Dan"), (2, "Michael"), (4, "Dan"))
val rdd = sc.parallelize(seq)
val df = rdd.toDF("id","name")

我想要output AS：

1，" john"
2，"迈克尔"
3，" sham"
4，'dan

我如何从 dataset中仅 select row，其中允许在ID和名称column上重复。

您可以在dataframe/dataset上使用dropduplicates（）。

您可能正在寻找来自数据框架的不同值。

df.distinct.orderBy("id").show();

，如果不想要结果的订购，则可以放下订单。 +---+-------+ | id| name| +---+-------+ | 1| John| | 2|Michael| | 3| Sham| | 4| Dan| +---+-------+

如何仅在Apache-Spark中的DataFrame列中重复值选择第一行

相关内容

最新更新

热门标签：