将俄语字符串转换为日期时间



我正在尝试抓取一个俄语网站。但是,我坚持尝试将俄罗斯西里尔字母转换为日期时间对象。

让我们以这个 html 片段为例:

<div class="medium-events-list_datetime">22 января весь день</div>

我能够使用 lxml 获取此div 的内容,即:

date = root.xpath('/html/body/div[1]/div/div[2]/text()')[0].strip()

所以这个字符串的相关部分是 22 января,即日和月。

为了获得这部分,我正在使用.split()方法

现在问题来了,我正在尝试将其转换为日期时间。我尝试使用日期解析器:https://dateparser.readthedocs.org/en/latest/,这应该支持俄语。

但是,当我将此字符串传递给dateparser.parse()时,它会返回None

有没有人遇到过类似的问题?我把头撞在墙上。任何帮助表示赞赏:)

尝试运行此示例:

#coding=utf-8
import dateparser
s = u"22 января"
print dateparser.parse(s)

它应该输出2016-01-22 00:00:00

重要提示:请确保您实际使用的是 utf-8 字符串。更多信息: https://www.python.org/dev/peps/pep-0263/

否则,您的解析/拆分可能是错误的,因此请尝试在split()后查看结果。

相关内容

  • 没有找到相关文章