我有一些这样的html代码
<div class="itm hasOverlay lastrow">
<a id="3:LE343SPABGLIANID" class="itm-link itm-drk trackingOnClick" title="League Sepatu Casual Geof S/L LO - Hitam/Biru" href="league-sepatu-casual-geof-sl-lo-hitambiru-68166.html" rel="-standard|">
</a>
<div class="itm-overlay itm-group-mainbox-with-group"></div>
</div>
我应该怎么做才能获得文本联盟-sepatu-casual-geof-sl-lo-hitambiru-68166.html in
<a href="league-sepatu-casual-geof-sl-lo-hitambiru-68166.html">
?
这应该很简单...
Source source=new Source(new StringReader(inputString));
Element aElement = source.getFirstElement(HTMLElementName.A);
String href = aElement.getAttributeValue("href");
System.out.println(href);
。当然,尽管这做出了一些假设:即,inputString
只是您发布的字符串(并且此部分未包含在其他标签中),并且该部分仅包含一个链接(a
)。
(如果这些假设无效,则必须以某种方式识别此特定div
和正确的a
标签。例如,通过搜索具有属性 class="itm hasOverlay lastrow"
的div
和具有类 class="itm-link itm-drk trackingOnClick"
的a
- 无论如何,必须更多地了解应该从中提取此信息的文档的实际结构)