如何在 Java 中解码 XHTML 和/或 HTML5 实体



我有一些包含XHTML字符实体的字符串:

"They're quite varied"
"Sometimes the string ∈ XML standard, sometimes ∈ HTML4 standard"
"Therefore -> I need an XHTML entity decoder."
"Sadly, some strings are not valid XML & are not-quite-so-valid HTML <- but I want them to work, too."

有没有简单的方法来解码实体?(我正在使用Java)

我目前正在使用StringEscapeUtils.unescapeHtml4(myString.replace("&apos;", "'"))作为临时黑客。可悲的是,org.apache.commons.lang3.StringEscapeUtilsunescapeHtml4unescapeXML,但没有unescapeXhtml

编辑:我确实想处理无效的XML,例如

我希望"&&xyzzy;"解码为"&&xyzzy;"

编辑:我认为HTML5与XHTML具有几乎相同的字符实体,所以我认为HTML 5解码器也可以。

这可能没有直接关系,但您可能希望采用JSoup来处理类似的事情,尽管是从更高的级别。包括网页清理例程。

您是否尝试过基于 org.apache.commons.text.StringEscapeUtils 提供的功能实现 XHTMLStringEscapeUtils?

import org.apache.commons.text.StringEscapeUtils;
import org.apache.commons.text.translate.*;
public class XHTMLStringEscapeUtils {
    public static final CharSequenceTranslator ESCAPE_XHTML =
            new AggregateTranslator(
                    new LookupTranslator(EntityArrays.BASIC_ESCAPE),
                    new LookupTranslator(EntityArrays.ISO8859_1_ESCAPE),
                    new LookupTranslator(EntityArrays.HTML40_EXTENDED_ESCAPE)
            ).with(StringEscapeUtils.ESCAPE_XML11);
    public static final CharSequenceTranslator UNESCAPE_XHTML =
            new AggregateTranslator(
                    new LookupTranslator(EntityArrays.BASIC_UNESCAPE),
                    new LookupTranslator(EntityArrays.ISO8859_1_UNESCAPE),
                    new LookupTranslator(EntityArrays.HTML40_EXTENDED_UNESCAPE),
                    new NumericEntityUnescaper(),
                    new LookupTranslator(EntityArrays.APOS_UNESCAPE)
            );
    public static final String escape(final String input) {
        return ESCAPE_XHTML.translate(input);
    }
    public static final String unescape(final String input) {
        return UNESCAPE_XHTML.translate(input);
    }
}

由于Apache commons-text lib的模块化设计,创建自定义转义实用程序很容易。

你可以在这里找到一个完整的测试项目 xhtml-string-escape-utils

最新更新