删除所有非字符,除了 python 中的数字、拉丁字母和西里尔字母



我想删除所有标点符号,特殊字母,如"ū","ú","ǔ","ù","ǖ","ǘ","ǚ","ǜ","ü","û"▬▬▬▬▬▬▬▬◄和任何其他字符字符,除了numbers, latin letters and cyrillic
输入字符串编码为utf-8如何实现这一点?

from string import ascii_letters, digits, whitespace
cyrillic_letters = u"абвгдеёжзийклмнопрстуфхцчшщъыьэюяАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ"

def strip(text):
allowed_chars = cyrillic_letters + ascii_letters + digits + whitespace
print(allowed_chars)
return "".join([c for c in text if c in allowed_chars])

编辑:不熟悉西里尔字母,但这就是我设法从字符串中去除字符的方式,除非您指定了西里尔字母、拉丁字母、非数字和(我添加了这个(空格。

最新更新