是否有一种标准的,最好是python的方式来将&#xxxx;
符号转换为适当的unicode字符串?
מפגשי
应转换为:
מפגשי
使用字符串操作可以很容易地做到这一点,但我想知道是否有一个标准库。
使用HTMLParser.HTMLParser()
:
>>> from HTMLParser import HTMLParser
>>> h = HTMLParser()
>>> s = "מפגשי"
>>> print h.unescape(s)
מפגשי
也是标准库的一部分。
然而,如果你使用Python 3,你必须从html.parser
导入:
>>> from html.parser import HTMLParser
>>> h = HTMLParser()
>>> s = 'מפגשי'
>>> print(h.unescape(s))
מפגשי