所以我有一篇从互联网上提取的文本,其中一些单词没有使用正确的字符,比如这篇"experiâªncias"。python中有什么函数或东西可以处理这样的字符串并转换成葡萄牙语版本吗。比如experiência。
谢谢!
您"提取"的不是Unicode字符串,而是西欧编码的字符串,可能是CP1252。您必须将其编码回字节对象,然后正确解码。
"experiências".encode("cp1252").decode()
# 'experiências'