Pandas系列显示值的独特方法看起来是一样的



我有一个pandas数据帧。当我对其中一列运行.unique((方法时,它显示的值看起来是一样的。我如何才能看到这些值的差异?我试图从unique((方法进行索引,但值只是字符串,如下所示。谢谢你的帮助。

df["MyColumn"].unique()
array(['yi̇', 'yd', 'yi'], dtype=object)
_______________________________________
df["MyColumn"].unique()[0]
'yi̇'
_______________________________________
df["MyColumn"].unique()[2]
'yi̇'

您可以检查asci代码的区别,在第一个i之后是特殊值775,如注释Er Bharath Ram:中所示

u = ['yi̇', 'yd', 'yi']
print ([list(map(ord,i)) for i in u])
[[121, 105, 775], [121, 100], [121, 105]]

仔细检查,您会发现差异:

'yi̇' # the i letter has two dots
'yi' # normal i letter

因此,您似乎看到了两个不同的unicode字符,但它们看起来非常相似。

相关内容

最新更新