小贝子编程

从没有重复的熊猫阵列到另一个数据结构

我有一个pandas dataframe，它具有〜10k列值。我想获得一个无重复的数组，但也具有诸如index 查找之类的属性！

！

import pandas as pd
df = pd.read_csv('path',sep=';')
arr = []
for i in df[0].values:
    if i not in arr:
        d.append(i)

实际上是由于通过10K元素数组的迭代而消耗的时间/内存，然后查找元素是否尚未存储在新创建的数组中，然后在匹配条件时附加附加元素。我知道SET有一个属性，例如无法重复，但是我无法通过索引轻松地查找元素。可能还有另一个可能的解决方案吗？

您可以使用pandas.dataframe.drop_duplicates进行更多信息drop_duplicates((

您正在寻找np.unique：

np.unique(df[0])

或在熊猫中改编为.nique((：

df[0].unique()

相关内容