Java 6 RegEx 匹配不在 Unicode 字母和标记类别中的所有字符



我需要从字符串中删除所有非字母和标记(Unicode类别)字符。目前我正在拆分并随后加入一个字符串,如下所示:

text.split("[\p{P} \t\n\r]")

但是,我的正则表达式是...严重不足。请帮忙。

编辑我认为这将起作用:

text.split("[\P{M}\P{L}]")

试试这个:

text = text.replaceAll("[^\p{L}\p{M}]", "");

在 http://www.regular-expressions.info/unicode.html 查看更多内容

最新更新