关于Unicode正则表达式词边界中的{w}语法



UTS #18中的RL2.2描述了Unicode正则表达式中字边界扩展字形簇的语法b{w},但我不太理解它与b语法的不同。在UTS #18中,它说

b {w}。Unicode字边界。注意,这与单独的b不同,它对应于w和w。参见附录C:兼容性属性。

那么这两种语法到底有什么区别呢?

b == wW

其中W = [^A-Za-z0-9_] =>仅处理ascii字母数字,而b{w}处理UNICODE字符集(即:更宽的字母数字集)。

您可以在这里看到一个模拟b{w}的示例,与通常的行为进行比较。

相关内容

最新更新