drop drop重复的火花数据框架方法不起作用,我认为这是因为我数据集的一部分的索引列被视为数据列。那里肯定有重复项,我通过在索引以外的所有列上比较COUNT()
和COUNT(DISTINCT())
进行了对其进行检查。我是新手的火花数据框架,但是如果我正在使用pandas,此时我将在该列上进行pandas.DataFrame.set_index
。
有人知道如何处理这种情况吗?
其次,在Spark DataFrame,drop_duplicates
和dropDuplicates
上似乎有2种方法。它们是一样的吗?
如果您不希望在检查不同记录时考虑索引列,则可以使用以下命令删除列或仅选择所需的列。
df = df.drop('p_index') // Pass column name to be dropped
df = df.select('name', 'age') // Pass the required columns
drop_duplicates()是dropduplicates()的别名。
https://spark.apache.org/docs/latest/api/python/pyspark.sql.html.html#pyspark.sql.dataframe.dropduplicates