我有一个报纸语料库作为原始文本文件,我希望能够从中提取社论。大多数社论在所有大写字母的"EDITORIAL"一词的第 3 个实例之后开始,并以页脚"sfbg"结尾。
我的想法是使用 python 的正则表达式来提取这些社论。我正在使用ClassdPlaintextCorpusReader。
我尝试自己寻找ClassdPlaintextCorpusReader的方法列表,但我得到的是空的。
好吧,查找文本"在单词 EDITORIAL 的第 3 个实例之后和结尾分隔符 'sfbg'之前"的正则表达式是:
(.*?EDITORIAL){3}(?<content>.*?)sfbg
以下是组成部分:
(.*?EDITORIAL){3}
- 通过使用非贪婪(更安全 - 避免匹配太笨拙)通配符.*?
并将整个组与{3}
相乘,找到直到第三次使用"EDITORIAL"一词的所有内容。
(?<content>.*?)
- 命名为匹配组"内容"。 这是你想要的比赛,它只是匹配直到....
sfbg
- 结束分隔符。
正则表达式101演示