不是所有的副本都被删除

我有一个句子列表(+200,000)，其中某些句子重复了几次。然而，我只想要一个独特句子的列表。我已经尝试了两种不同的代码，虽然一些重复已经被删除，但我仍然注意到一些重复仍然保留在数据集中。知道为什么我的代码没有完全工作，我能做些什么来改变这一点吗?提前感谢!

我试过的代码如下;unique = list(set(all_data))和

for line in all_data:
if line not in unique:
unique.append(line)

您可以使用numpy:

import numpy as np
mylist = ['Hey','Hey','Heyy']
newlist = list(np.unique(mylist)) #np.unique's output is an array

现在newlist将是

['Hey','Heyy']

相关内容