小贝子编程

r语言 - 删除 SparkR 数据帧中的重复观测值

本文关键字：复观数据帧 r语言删除 SparkR r apache-spark apache-spark-sql sparkr
更新时间 : 2023-09-13
英文 : r - Removing duplicate observations in SparkR DataFrame

我有一个带有重复观察结果的SparkR DataFrame。我找不到删除重复项的简单方法，并且似乎 PySpark dropDuplicates() 函数在 SparkR 中不可用。例如，如果我有以下DataFrame，如何根据fullname重复的事实删除第 2 行和第 4 行？

newHires <- data.frame(name = c("Thomas", "Thomas", "Bill", "Bill"),
  surname = c("Smith", "Smith", "Taylor", "Taylor"),
  value = c(1.5, 1.5, 3.2, 3.2))
newHires <- withColumn(newHires, 'fullname', concat(newHires$name, newHires$surname))

|name    | surname | value | fullname  |
|--------|---------|-------|-----------|
|Thomas  | Smith   |  1.5  |ThomasSmith|
|Thomas  | Smith   |  1.5  |ThomasSmith|
|Bill    | Taylor  |  3.2  |BillTaylor |
|Bill    | Taylor  |  3.2  |BillTaylor |

sparkR 中也dropDuplicates了一个函数，您可以使用

dropDuplicates(newHire, "fullname")

请参考这里

希望这有帮助！

r语言 - 删除 SparkR 数据帧中的重复观测值

相关内容

最新更新

热门标签：