使用正则表达式查找页面中的所有时间戳



我试图找到使用 Python 在线发表的报纸文章的发布日期,但每个网站都使用自己独特的 html 样式,并且页面元中的发布时间在不同域之间不一致。

我尝试使用dateparser包,但它包含一个相对约会系统,该系统错误地将某些单词(如字符串:"一天"(读取为相对时间。

是否有一个有人知道/可以共享的正则表达式列表,其中包括尽可能多的格式化时间戳的方法,包括对读取时区的支持?

一般来说,不 - 这项任务是不可能的,因为人类推断出你可能没有考虑到的上下文。

考虑您的代码是否遇到类似01/05/13的字符串。 那是什么日子? 是2013年1月5日吗?或者也许是2013年5月1日?还是1801年5月13日? 人类读者可能会了解本地化和出版世纪的背景,但除非你单独提供它们 - 计算机代码不会。

同样,请考虑您的代码是否遇到类似3.14的字符串。 是3月14日吗?还是数学符号π的近似值? 如果没有理解周围文本的上下文,就不可能知道。

最新更新