Regex调整以删除重复的文本



正则表达式(?s)(.{10,})(?=1)用于删除超过10个字符的文本部分的重复项。它通常工作得很好,但在下面链接的片段中,它忽略了以单词"开头的短语的重复;协助记录申请";。

你知道如何改进正则表达式,使其能够捕获重复吗?

以下是片段:https://regex101.com/r/sjACIb/1

这个短语不会立即重复,另一句话将其从重复中分离出来:-Responsible for researching and writing new content for Nexus' website.您可以添加一个非捕获组来处理两种情况之间可能出现的字符:

(.{10,})(?:.*)(?=1)

注意,这也将与...LEED-CI certification (anticipating Gold Level certification).中的certification相匹配

编辑:如果你想坚持使用单行修饰符,你必须指定你不想在重复短语中匹配新行,以避免灾难性的回溯(然后短语和它的再次出现之间仍然允许有新行(:

(?s)([^n]{10,})(?:.*)(?=1)

最新更新