Python中的isalpha()方法是否识别所有非alpha字符



我有一个名为messages.txt的文件,它由许多用行分隔的句子组成。我试图排除包含非字母字符的行(我只想要那些包含A-Z字符的行。

import re
import string
lines = [line.rstrip() for line in open('messages.txt', encoding='utf-8')]
cleaned_lines = [s.replace("!", "").replace(".", "").replace("?", "").replace(",", "") for s in lines]
output_lines = []
for line in cleaned_lines:
if line.replace(' ', '').isalpha() == True:
output_lines.append(re.sub(r'W+', '', line.lower()))
chars = sorted(set(('').join(output_lines)))
print(chars)

输出:

['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'ª', 'â', 'ã', 'å', 'ð', 'ÿ', 'œ', 'š', 'ž', 'ƒ', 'ˆ']

可以看出,isalpha((方法似乎没有排除奇怪的

'â', 'ã', 'å', 'ð', 'ÿ'

字符。我有一种感觉,这可能是由于正在读取文件的编码,然而,我认为isalpha方法和模式RegEx应该能够过滤掉这些字符。

这是故意的吗?如果是的话,可以用什么方法去除这些奇怪的字符?

根据我使用UTF-8编码的Python脚本进行的本地测试,isalpha()对包含重音字符的输入返回false:

# -*- coding: utf-8 -*-
inp1 = "Hello"
inp2 = "Hållo"
print(inp1.isalpha())  # True
print(inp2.isalpha())  # False

在任何情况下,如果你想过滤掉任何包含非ASCII字母数字字符的行,那么只需在你的初始列表理解中使用re.search

lines = [line.rstrip() for line in open('messages.txt', encoding='utf-8') if not re.search(r'[^A-Za-z0-9]', line)]

当您使用读取编码为UTF-8的文件时

lines = [line.rstrip() for line in open('messages.txt', encoding='utf-8')]

lines中的数据是Unicode字符串。根据所使用的OS/Editor,重音字符可以是";组成";(对一些重音字母使用单个码点(或";分解的";(使用两个代码点,一个字母和一个组合重音(。

您可以强制使用适用于您的表单:

import unicodedata as ud
inp = "Hello",ud.normalize('NFC',"Hållo"),ud.normalize('NFD',"Hållo")
for i in inp:
print(i,ascii(i),i.isalpha(),i.isascii())

输出。注意,ascii()函数将被访问的a显示为单个码点xe5或对au030a:

Hello 'Hello' True True
Hållo 'Hxe5llo' True False
Hållo 'Hau030allo' False False

要只查找ASCII字母,请同时使用isalpha()isascii()进行测试。

最新更新