将html字符串转换为org.w3c.dom.Java文档



将HTML字符串转换为

org.w3c.dom.Document

我使用

jtidy-r938.jar

下面是我的代码:
public static Document getDoc(String html) {
        Tidy tidy = new Tidy();
        tidy.setInputEncoding("UTF-8");
        tidy.setOutputEncoding("UTF-8");
        tidy.setWraplen(Integer.MAX_VALUE);
        // tidy.setPrintBodyOnly(true);
        tidy.setXmlOut(false);
        tidy.setShowErrors(0);
        tidy.setShowWarnings(false);
        // tidy.setForceOutput(true);
        tidy.setQuiet(true);
        Writer out = new StringWriter();
        PrintWriter dummyOut = new PrintWriter(out);
        tidy.setErrout(dummyOut);
        tidy.setSmartIndent(true);
        ByteArrayInputStream inputStream = new ByteArrayInputStream(html.getBytes());
        Document doc = tidy.parseDOM(inputStream, null);
        return doc;
    }

但有时库工作不正确,一些标签丢失。

请告诉一个好的开放库来做这个任务。

非常感谢!

您没有说明为什么有时库不能提供良好的结果。尽管如此,我非常有规律地使用html文件,我必须从中提取数据,遇到的主要问题是,一些标签无效,因为没有关闭,例如。我发现最好的解决方案是api htmlcleaner (htmlcleaner网站)。

它允许你使你的html文件格式良好。然后,将其转换为文档w3c或其他严格格式的文件更容易。

使用HtmlCleaner,你可以这样做:
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(html);
DomSerializer ser = new DomSerializer(cleaner.getProperties());
Document myW3cDoc = ser.createDOM(node);

我引用的DomSerializer来自htmlcleaner

最新更新