我只是在考虑一个假设的数据帧(df(,它有大约50列和30000行,还有一个假设列,例如:Toy=[‘Ball’,‘Roll’,'Horse’,…,‘Sheriff’等]。现在我只有列的名称(Toy(,我想知道列中没有重复值的变量是什么。
我正在考虑一个类似.describe((函数的输出
df['Toy'].describe()
但是有更多的信息,因为现在我只得到这个输出
count 30904
unique 7
top "Doll"
freq 16562
Name: Toy, dtype: object
换句话说,我该如何获得这一列中的7个值。我想复制列并删除重复的值,但我很确定有一种更短的方法。你知道正确的代码吗?或者我是否应该使用另一个库?
非常感谢!
您可以使用unique()
函数列出列中的所有唯一值。在您的情况下,要列出数据帧df中列名toys的唯一值,语法看起来像
df["toys"].unique()
您也可以使用.drop_duplicates()
,它返回pandas系列:
df['toys'].drop_duplicates()