替换 python 字符串中的特殊字母表



我正在研究一个足球数据集,正在处理一些异国情调的名字。我想问一下如何替换数据集中存在的特殊字母表?这些是这些"异国情调"名称的一些例子:

"莱昂内尔·安德烈斯·梅西·库奇蒂尼"、"内马尔·达席尔瓦·桑托斯"、"路易斯·阿尔贝托·苏亚雷斯·迪亚斯"、"大卫·德赫亚·金塔纳"、"兹拉坦·伊布拉希莫维奇">

特殊的字母是é,á,ć等(上面带有"上标"的字母(。我想将它们更改为"基本"形式 - ć 变为 c,á 变为 a,依此类推。

提前非常感谢!

你可以试试这个

for i in range(len(playernames)):
playernames[i] = playernames[i].replace("é", "e")

然后当然添加所有其他字符

您可以使用 unidecode 包:

import unidecode
special_str = [u'Lionel Andrés Messi Cuccittini', u'Neymar da Silva Santos Junior', u'Luis Alberto Suárez Díaz', u'David De Gea Quintana', u'Zlatan Ibrahimović']
for item in special_str:
print(unidecode.unidecode(item))

输出将是:

Lionel Andres Messi Cuccittini
Neymar da Silva Santos Junior
Luis Alberto Suarez Diaz
David De Gea Quintana
Zlatan Ibrahimovic

你可以试试:

import unidecode
new_string = unidecode.unidecode(your_string)

最新更新