我在文本文件中有一个很大的单词列表(每行一个单词)有些单词有重音字符(变音符)。 如何使用 grep 仅显示包含重音字符的行?
对于更大的字符类("哪些单词不是纯ASCII?")我发现的最佳解决方案是使用带有-P
选项的PCRE:
grep -P "[x7f-xff]" filename
这将找到 UTF-8 和 ISO-8859-1(5)(拉丁语 1、win1252、cp850)重音字符。
我有一个解决方案。 首先使用"iconv"去除重音,然后对原始文件中的行执行"diff":
cat text-file | iconv -f utf8 -t ascii//TRANSLIT > noaccents-file
diff text-file noaccents-file | grep '<'