Regex， group & quantifyer

我刚刚在http://regexcrossword.com/-发现我不理解量化组的含义，例如（.）+或（.）*

让我试试http://ole.michelsen.dk/tools/regex.html，它提供JavaScript和PHP正则表达式引擎：

要匹配的字符串是"Trololo！"（没有引号）。（如果打开"全局匹配"改变了什么，它会被添加为预处理版本，即JS，因为它在PHP模式下没有改变任何东西。）

JS,  (.)+ => 0: Trololo! 1: ! 
JS', (.)+ => 0: Trololo! 
PHP, (.)+ => 0: Trololo! 0: ! 
JS,  (.)* => 0: Trololo! 1: ! 
JS', (.)* => 0: Trololo! 
PHP, (.)* => 0: Trololo! 1: 0: ! 1: 
JS,  (.){5} => 0: Trolo 1: o 
JS', (.){5} => 0: Trolo 
PHP, (.){5} => 0: Trolo 0: o 
JS,  (.){4} => 0: Trol 1: l 
JS', (.){4} => 0: Trol 1: olo! 
PHP, (.){4} => 0: Trol 1: olo! 0: l 1: !

有什么规范性的答案吗？它的语义是什么？

输出没有正确标记，仅此而已。

首先，应该发生什么？如果重复一个组，则每个新实例都会覆盖上一次捕获。如果根本不使用该组，它将返回一个空字符串或类似JS中的undefined的东西（这取决于风格）。关于这件事，有一篇关于定期出版的好文章。

现在我们如何获得您的结果？让我们从JavaScript开始。

标记为JS的所有实例（非全局实例）都符合上述描述。它们匹配0中所需的字符数量，并捕获1中的最后一个字符。所以我们可以忽略这些。

全球的是怎么回事？这里的输出被错误地解释了。当您将全局标志与String.match()函数一起使用时，您将不再获得所有捕获的数组，而只获得所有匹配的数组（为每个匹配分组0）。因此，在只有一个匹配的+、*和{5}的情况下，您只能得到一个结果。对于{4}，目标字符串中有足够的空间进行两次匹配，因此生成的数组包含两个元素。要获得带有全局标志的所有捕获，您需要编写一个循环并使用RegExp.exec()（它一次只提供一个匹配，但它的所有捕获）。

PHP是怎么回事？它似乎在使用preg_match_all，不管怎么说，它是全局的，这就是为什么使用g没有效果的原因。+再次给出您所期望的结果。{5}也是如此。

另外两个怎么了？在这里，对输出的解释是错误的。默认情况下，preg_match_all给出一个二维数组，其中第一个索引对应于组，第二个索引对应匹配。在你的输出中，它被反过来解释。因此，当存在多个匹配时，第一对0和1是找到的两个匹配的全部匹配。第二对0和1是您在这两场比赛中捕捉到的。

因此，对于*，首先获得完整的字符串作为匹配，最后一个字符作为捕获（标记为0的两个字符），这是正确的。然后，由于*允许零宽度匹配，因此在字符串的末尾会得到另一个（空）匹配，以及一个空捕获。不过，我不知道为什么相应的JS'示例不包含额外的空字符串，因为String.match也会做同样的事情。

对于{4}，您只得到两个匹配（Trol和olo!），就像JavaScript的情况一样，分别捕获l和!，这同样非常好。

相关内容

最新更新

热门标签：