如何使用Jericho从嵌套HTML元素中的<href>获取文本?



我有一些这样的html代码

<div class="itm hasOverlay lastrow">
<a id="3:LE343SPABGLIANID" class="itm-link itm-drk trackingOnClick" title="League Sepatu Casual Geof S/L LO - Hitam/Biru" href="league-sepatu-casual-geof-sl-lo-hitambiru-68166.html" rel="-standard|">
</a>
<div class="itm-overlay itm-group-mainbox-with-group"></div>
</div>

我应该怎么做才能获得文本联盟-sepatu-casual-geof-sl-lo-hitambiru-68166.html in

<a href="league-sepatu-casual-geof-sl-lo-hitambiru-68166.html">

这应该很简单...

Source source=new Source(new StringReader(inputString));
Element aElement = source.getFirstElement(HTMLElementName.A);
String href = aElement.getAttributeValue("href");
System.out.println(href);

。当然,尽管这做出了一些假设:即,inputString只是您发布的字符串(并且此部分未包含在其他标签中),并且该部分仅包含一个链接(a)。

(如果这些假设无效,则必须以某种方式识别此特定div和正确的a标签。例如,通过搜索具有属性 class="itm hasOverlay lastrow"div和具有类 class="itm-link itm-drk trackingOnClick"a - 无论如何,必须更多地了解应该从中提取此信息的文档的实际结构

相关内容

  • 没有找到相关文章