我想提取在网站上发布的日期,如果有任何。是否有任何python模块来解析来自网站的通用日期。日期可以是任何格式,也可以位于正文的任何位置。它也可能被html标签污染。
Try this:
安装:pip install dateparser
代码:
import dateparser
print(dateparser.parse('Fri, 12 Dec 2014 10:55:50'))
print(dateparser.parse('1991-05-17'))
print(dateparser.parse('In two months'))
print(dateparser.parse('1484823450'))
print(dateparser.parse('January 12, 2012 10:00 PM EST'))
print(dateparser.parse('Martes 21 de Octubre de 2014'))
print(dateparser.parse('Le 11 Décembre 2014 à 09:00'))
print(dateparser.parse('Martes 21 de Octubre de 2014')) # Spanish (Tuesday 21 October 2014)
print(dateparser.parse('Le 11 Décembre 2014 à 09:00')) # French (11 December 2014 at 09:00)
print(dateparser.parse('13 января 2015 г. в 13:34')) # Russian (13 January 2015 at 13:34)
print(dateparser.parse('1 เดือนตุลาคม 2005, 1:00 AM')) # Thai (1 October 2005, 1:00 AM)
print(dateparser.parse('yaklaşık 23 saat önce')) # Turkish (23 hours ago), current time: 12:46
print(dateparser.parse('2小时前')) # Chinese (2 hours ago), current time: 22:30
输出:
2014-12-12 10:55:50
1991-05-17 00:00:00
2021-11-02 16:30:46.973124
2017-01-19 16:57:30
2012-01-12 22:00:00-05:00
2014-10-21 00:00:00
2014-12-11 09:00:00
2014-10-21 00:00:00
2014-12-11 09:00:00
2015-01-13 13:34:00
2005-10-01 01:00:00
2021-09-01 17:30:47.158997
2021-09-02 14:30:47.162196