regex识别文档头

我已经将一个文档解析为单独的句子，但是一些解析的句子还包含文档的标题。这意味着一些句子看起来像这样:

废话废话一些文字。2 2011年公司名称，公司名称免责声明日期2011年1月5日废话废话继续。

现在我想删除标题(如果存在)并将字符串分成两个(一个句子在标题之前，另一个句子在标题之后。

标题中的日期不同，但总是…

会有一个正则表达式来识别这个头并删除它吗?

Try with:

d+sYearsd{4}[ws,]+?Datesd+sw+sd{4}

演示然而，

取决于文本内容，也可能有匹配的片段。所以可能需要一个更长的例子

您可以使用提供空字符串的re.sub作为repl参数。

re.sub("d+ Year d{4}.*Date d{1,2} (january|february) d{4}", "", your_sentence)

详情请参阅re.sub。

你也可以使用Pythex来测试正则表达式模式

相关内容