我有这个字符串,我从网页抓取。我想将这个十六进制代码转换为普通文本。我使用编码("utf-8"),但它仍然不工作
text = 'Hospital Nossa Senhora da Conceição, Porto Alegre, Brazil,Hospital de Base São José do Rio Preto, São José Do Rio Preto, Brazil'
text = text.encode("ut-8")
预期输出必须为Hospital Nossa Senhora da concepp
我也试过
text.encode('utf-8').decode('unicode-escape')
但是仍然不能工作。有人能帮忙吗?
应用html
-超文本标记语言支持
这个模块定义了操作HTML的实用程序。
…
html.unescape(s)
转换所有命名和数字字符引用(例如
>
,将字符串s中的>
,>
)转换为相应的Unicode字符。这个函数使用HTML 5定义的规则有效和无效字符引用的标准,以及列表HTML 5命名字符引用。3.4新版功能。
import html
text = 'Hospital Nossa Senhora da Conceição, Porto Alegre, Brazil,Hospital de Base São José do Rio Preto, São José Do Rio Preto, Brazil'
unescaped_text = html.unescape(text)
print( unescaped_text)
输出strong>:.SO72657237.py
巴西阿雷格里港产科医院巴西,Rio Preto, o jossee do Rio Preto,巴西