Jsoup-法语字体解析的编码值


Document doc = Jsoup.parse(result);
ArrayList<String> elements = new ArrayList<String>();  
Elements e = doc.select("span");
for (int i = 0; i < e.size(); i++) {
elements.add(e.get(i).html());
}

上面的代码将法语字体从这个réhydraté,解析为这个r&eacute;hydrat&eacute;。我有问题在工具中打印这个。我计划使用replace()函数,但这不是正确的方式,因为有很多字体都有同样的问题。我该如何解决此问题?

它似乎正确地解析了它,并用HTML字符代码对它进行了重新编码,当浏览器查看时,HTML字符代码会正确呈现。

根据您呈现输出的方式,一种潜在的不安全方法是将Document.OutputSettingsEntities.EscapeMode更改为xhtml

我建议阅读输出工具上的文档,看看它支持什么样的转义序列。

(通过"呈现输出",我指的是用户最终如何查看输出。如果浏览器要查看HTML,则带有HTML实体(如&eacute;)的输出将正确地呈现为"é"。)

最新更新