Regex调整以删除重复的文本

正则表达式(?s)(.{10,})(?=1)用于删除超过10个字符的文本部分的重复项。它通常工作得很好，但在下面链接的片段中，它忽略了以单词"开头的短语的重复；协助记录申请"；。

你知道如何改进正则表达式，使其能够捕获重复吗？

以下是片段：https://regex101.com/r/sjACIb/1

这个短语不会立即重复，另一句话将其从重复中分离出来：-Responsible for researching and writing new content for Nexus' website.您可以添加一个非捕获组来处理两种情况之间可能出现的字符：

(.{10,})(?:.*)(?=1)

注意，这也将与...LEED-CI certification (anticipating Gold Level certification).中的certification相匹配

编辑：如果你想坚持使用单行修饰符，你必须指定你不想在重复短语中匹配新行，以避免灾难性的回溯(然后短语和它的再次出现之间仍然允许有新行(：

(?s)([^n]{10,})(?:.*)(?=1)

相关内容