Spark DataFrame equivalent of pandas.DataFrame.set_index / d



drop drop重复的火花数据框架方法不起作用,我认为这是因为我数据集的一部分的索引列被视为数据列。那里肯定有重复项,我通过在索引以外的所有列上比较COUNT()COUNT(DISTINCT())进行了对其进行检查。我是新手的火花数据框架,但是如果我正在使用pandas,此时我将在该列上进行pandas.DataFrame.set_index

有人知道如何处理这种情况吗?

其次,在Spark DataFrame,drop_duplicatesdropDuplicates上似乎有2种方法。它们是一样的吗?

如果您不希望在检查不同记录时考虑索引列,则可以使用以下命令删除列或仅选择所需的列。

df = df.drop('p_index') // Pass column name to be dropped
df = df.select('name', 'age') // Pass the required columns

drop_duplicates()是dropduplicates()的别名。

https://spark.apache.org/docs/latest/api/python/pyspark.sql.html.html#pyspark.sql.dataframe.dropduplicates

相关内容

  • 没有找到相关文章