通过保留相对标签来提取正文的属性

我正试图遍历HTML正文，以便找到所有<h1>标记：

Element body = docJSoup.body();
Elements mainCmp = body.select("h1");

因此，考虑到这具尸体的碎片：

<h1><span style='mso-bookmark:_Toc283737133'><span
style='mso-spacerun:yes'></span><span style='mso-spacerun:yes'></span><a
name="_Toc35343186"></a><a name="_Toc264704629"></a><span style='mso-bookmark:
_Toc35343186'>3<span style='mso-tab-count:1'></span>Aspetti metodologici</span></span></h1>

我要得到这个：

<span style="mso-bookmark:_Toc283737133"><span style="mso-spacerun:yes"></span><span style="mso-spacerun:yes"></span><a name="_Toc35343186"></a><a name="_Toc264704629"></a><span style="mso-bookmark:
_Toc35343186">3<span style="mso-tab-count:1"></span>Aspetti metodologici</span></span>

顺便说一下，我还想在结果中保留<h1>标记。<h1>标记本身也可以有其他属性，所以我不能将"<h1>"连接到结果字符串。有没有一种方法可以使用JSoup方法来保持它？

感谢您的真知灼见。

outerHtml()将为您提供节点的标记，包括它自己的开始和结束标记。

相关内容

最新更新

热门标签：