regex识别文档头



我已经将一个文档解析为单独的句子,但是一些解析的句子还包含文档的标题。这意味着一些句子看起来像这样:

废话废话一些文字。2 2011年公司名称,公司名称免责声明日期2011年1月5日废话废话继续。

现在我想删除标题(如果存在)并将字符串分成两个(一个句子在标题之前,另一个句子在标题之后。

标题中的日期不同,但总是…

  • 以页码开头,后跟"年份"和年份号;
  • 结尾:"日期"+ (int) + (string) + (int)。

会有一个正则表达式来识别这个头并删除它吗?

Try with:

d+sYearsd{4}[ws,]+?Datesd+sw+sd{4}

演示然而,

取决于文本内容,也可能有匹配的片段。所以可能需要一个更长的例子

您可以使用提供空字符串的re.sub作为repl参数。

re.sub("d+ Year d{4}.*Date d{1,2} (january|february) d{4}", "", your_sentence)

详情请参阅re.sub。

你也可以使用Pythex来测试正则表达式模式

最新更新