jTidy在整理HTML后不返回任何内容

我在使用jTidy（在Android上）时遇到了一个非常烦人的问题。我发现jTidy适用于我测试过的每一个HTML文档，除了以下内容：

    <!DOCTYPE html>
      <html lang="en">
       <head>
        <meta charset="utf-8" />
         <!-- Always force latest IE rendering engine & Chrome Frame 
              Remove this if you use the .htaccess -->
         <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1" />
         <title>templates</title>
         <meta name="description" content="" />
         <meta name="author" content="" />
         <meta name="viewport" content="width=device-width; initial-scale=1.0" />
         <!-- Replace favicon.ico & apple-touch-icon.png in the root of your domain and delete these references -->
      <link rel="shortcut icon" href="/favicon.ico" />
      <link rel="apple-touch-icon" href="/apple-touch-icon.png" />
   </head>
 <body>
   <div>
     <header>
       <h1>Page Heading</h1>
     </header>
     <nav>
       <p><a href="/">Home</a></p>
       <p><a href="/contact">Contact</a></p>
     </nav>
     <div>
     </div>
     <footer>
      <p>&copy; Copyright</p>
     </footer>
   </div>
 </body>
 </html>

但整理后，jTidy什么也不返回（如中所示，如果包含整理HTML的字符串被称为result，result.equals（"）==true）

不过，我注意到了一件非常有趣的事情：如果我删除HTML正文部分的所有内容，jTidy就可以完美地工作。<身体>lt/身体>jTidy不喜欢？

这是我正在使用的Java代码：

 public String tidy(String sourceHTML) {
   StringReader reader = new StringReader(sourceHTML);
   ByteArrayOutputStream baos = new ByteArrayOutputStream();
   Tidy tidy = new Tidy();
   tidy.setMakeClean(true);
   tidy.setQuiet(false);
   tidy.setIndentContent(true);
   tidy.setSmartIndent(true);
   tidy.parse(reader, baos);
   try {
     return baos.toString(mEncoding);
   } catch (UnsupportedEncodingException e) {
     return null;
   }
 }

我的Java有什么问题吗？这是jTidy的错误吗？有什么办法可以让jTidy不这么做吗？（我无法更改HTML）。如果这个问题绝对无法解决，还有其他好的HTML Tidier吗？非常感谢！

试试这个：

tidy.setForceOutput(true);

可能存在解析错误。

查看Jsoup，我建议使用任何类型的Java Html处理（我曾使用HtmlCleaner到，但后来切换到Jsoup）。

用J汤清洗Html：

final String yourHtml = ...
String output = Jsoup.clean(yourHtml, Whitelist.relaxed());

仅此而已！

或者（如果你想更改/删除/解析/…）一些东西：

Document doc = Jsoup.parse(<file/string/website>, null);
String output = doc.toString();

相关内容

最新更新

热门标签：