正则表达式 - 使用分类纯文本语料库阅读器查找单词的第 n 个实例



我有一个报纸语料库作为原始文本文件,我希望能够从中提取社论。大多数社论在所有大写字母的"EDITORIAL"一词的第 3 个实例之后开始,并以页脚"sfbg"结尾。

我的想法是使用 python 的正则表达式来提取这些社论。我正在使用ClassdPlaintextCorpusReader。

我尝试自己寻找ClassdPlaintextCorpusReader的方法列表,但我得到的是空的。

好吧,查找文本"在单词 EDITORIAL 的第 3 个实例之后和结尾分隔符 'sfbg'之前"的正则表达式是:

(.*?EDITORIAL){3}(?<content>.*?)sfbg

以下是组成部分:

(.*?EDITORIAL){3}- 通过使用非贪婪(更安全 - 避免匹配太笨拙)通配符.*?并将整个组与{3}相乘,找到直到第三次使用"EDITORIAL"一词的所有内容。

(?<content>.*?)- 命名为匹配组"内容"。 这是你想要的比赛,它只是匹配直到....

sfbg- 结束分隔符。

正则表达式101演示

最新更新