将数字字符引用表示法转换为unicode字符串



是否有一种标准的,最好是python的方式来将&#xxxx;符号转换为适当的unicode字符串?

例如,

מפגשי

应转换为:

מפגשי

使用字符串操作可以很容易地做到这一点,但我想知道是否有一个标准库。

使用HTMLParser.HTMLParser():

>>> from HTMLParser import HTMLParser
>>> h = HTMLParser()
>>> s = "מפגשי"
>>> print h.unescape(s)
מפגשי

也是标准库的一部分。


然而,如果你使用Python 3,你必须从html.parser导入:

>>> from html.parser import HTMLParser
>>> h = HTMLParser()
>>> s = 'מפגשי'
>>> print(h.unescape(s))
מפגשי

最新更新