我有一个pandas dataframe,它具有〜10k列值。我想获得一个无重复的数组,但也具有诸如index 查找之类的属性!
!import pandas as pd
df = pd.read_csv('path',sep=';')
arr = []
for i in df[0].values:
if i not in arr:
d.append(i)
实际上是由于通过10K元素数组的迭代而消耗的时间/内存,然后查找元素是否尚未存储在新创建的数组中,然后在匹配条件时附加附加元素。我知道SET有一个属性,例如无法重复,但是我无法通过索引 轻松地查找元素。可能还有另一个可能的解决方案吗?
您可以使用pandas.dataframe.drop_duplicates进行更多信息drop_duplicates((
您正在寻找np.unique:
np.unique(df[0])
或在熊猫中改编为.nique((:
df[0].unique()