Jsoup.parse返回无效HTML



我正在使用Jsoup解析任意HTML,到目前为止它运行良好,但遇到了一个问题。当给定以下HTML时,Jsoup返回无效的HTML(已删除无关位):

<div>
  <a href=''>
    <img src='' alt='The problem is here "I'm not sure what to do"'>
  </a>
</div>

我有一个用单引号括起来的alt标记,其中包含未标注的单引号和双引号,不幸的是,我无法控制输入。当我通过Jsoup.parse运行这个时,我得到的是:

<div>
  <a href="">
    <img src="" alt="The problem is here &quot;I" m not sure what to do"'>
  </a>
</div>

img标签末尾那两个未闭合的引号把我搞砸了。我希望Jsoup能给我一些类似于的东西

<div>
  <a href="">
    <img src="" alt="The problem is here &quot;I'm not sure what to do&quot;">
  </a>
</div>

有没有办法让这一切成为可能?

jsoup的主页广告:

jsoup实现了WHATWGHTML5规范,并将HTML解析为与现代浏览器相同的DOM

…这就是它正在做的。

所以,不,你不能让它按照你想要的方式解析代码。

在将内容传递给jsoup之前,您需要修复错误。

你能试试这个吗:

<div>
  <a href="">
    <img src="" alt="The problem is here &#34;I&#39;m not sure what to do&#34;">
  </a>
</div>

最新更新