考虑我确实有 dataframe
包含以下数据,
val seq = Seq((1, "John"), (1, "John"), (2, "Michael"), (3, "Sham"),(4, "Dan"), (2, "Michael"), (4, "Dan"))
val rdd = sc.parallelize(seq)
val df = rdd.toDF("id","name")
我想要output
AS:
1," john"
2,"迈克尔"
3," sham"
4,'dan
我如何从 dataset
中仅 select
row
,其中允许在ID和名称column
上重复。
您可以在dataframe/dataset上使用dropduplicates()。
您可能正在寻找来自数据框架的不同值。
df.distinct.orderBy("id").show();
,如果不想要结果的订购,则可以放下订单。
+---+-------+
| id| name|
+---+-------+
| 1| John|
| 2|Michael|
| 3| Sham|
| 4| Dan|
+---+-------+