使用 grep 查找所有重音单词(变音符)



我在文本文件中有一个很大的单词列表(每行一个单词)有些单词有重音字符(变音符)。 如何使用 grep 仅显示包含重音字符的行?

对于更大的字符类("哪些单词不是纯ASCII?")我发现的最佳解决方案是使用带有-P选项的PCRE:

grep -P "[x7f-xff]" filename

这将找到 UTF-8 和 ISO-8859-1(5)(拉丁语 1、win1252、cp850)重音字符。

我有一个解决方案。 首先使用"iconv"去除重音,然后对原始文件中的行执行"diff":

cat text-file | iconv -f utf8 -t ascii//TRANSLIT > noaccents-file
diff text-file noaccents-file | grep '<'

最新更新