从没有重复的熊猫阵列到另一个数据结构



我有一个pandas dataframe,它具有〜10k列值。我想获得一个无重复的数组,但也具有诸如index 查找之类的属性!

import pandas as pd
df = pd.read_csv('path',sep=';')
arr = []
for i in df[0].values:
    if i not in arr:
        d.append(i)

实际上是由于通过10K元素数组的迭代而消耗的时间/内存,然后查找元素是否尚未存储在新创建的数组中,然后在匹配条件时附加附加元素。我知道SET有一个属性,例如无法重复,但是我无法通过索引 轻松地查找元素。可能还有另一个可能的解决方案吗?

您可以使用pandas.dataframe.drop_duplicates进行更多信息drop_duplicates((

您正在寻找np.unique:

np.unique(df[0])

或在熊猫中改编为.nique((:

df[0].unique()

最新更新