不是所有的副本都被删除



我有一个句子列表(+200,000),其中某些句子重复了几次。然而,我只想要一个独特句子的列表。我已经尝试了两种不同的代码,虽然一些重复已经被删除,但我仍然注意到一些重复仍然保留在数据集中。知道为什么我的代码没有完全工作,我能做些什么来改变这一点吗?提前感谢!

我试过的代码如下;unique = list(set(all_data))

for line in all_data:
if line not in unique:
unique.append(line)

您可以使用numpy:

import numpy as np
mylist = ['Hey','Hey','Heyy']
newlist = list(np.unique(mylist)) #np.unique's output is an array

现在newlist将是

['Hey','Heyy']

最新更新