小贝子编程

正则表达式 - 使用分类纯文本语料库阅读器查找单词的第 n 个实例

本文关键字：单词查找实例分类语料库文本正则表达式 python regex nltk corpus
更新时间 : 2023-09-07
英文 : regex- using CategorizedPlaintextCorpusReader to find nth instance of a word

我有一个报纸语料库作为原始文本文件，我希望能够从中提取社论。大多数社论在所有大写字母的"EDITORIAL"一词的第 3 个实例之后开始，并以页脚"sfbg"结尾。

我的想法是使用 python 的正则表达式来提取这些社论。我正在使用ClassdPlaintextCorpusReader。

我尝试自己寻找ClassdPlaintextCorpusReader的方法列表，但我得到的是空的。

好吧，查找文本"在单词 EDITORIAL 的第 3 个实例之后和结尾分隔符 'sfbg'之前"的正则表达式是：

(.*?EDITORIAL){3}(?<content>.*?)sfbg

以下是组成部分：

(.*?EDITORIAL){3}- 通过使用非贪婪(更安全 - 避免匹配太笨拙)通配符.*?并将整个组与{3}相乘，找到直到第三次使用"EDITORIAL"一词的所有内容。

(?<content>.*?)- 命名为匹配组"内容"。这是你想要的比赛，它只是匹配直到....

sfbg- 结束分隔符。

正则表达式101演示

相关内容