我正试图找到一种方法来获取网页中的所有超链接,除非它们在锚标记()中。
为此,我使用了Jericho解析器。
我最初的方法是List<Element> elementList = source.getAllElements();
和getAllElements(HTMLElementName.A)
,但其他元素中也可能包含锚链接,所以我认为这不是正确的方法。
我建议您使用J汤进行Html处理。
下面是一个如何获取所有链接的示例(=a
-带有href
-属性的标签):
Document doc = Jsoup.connect("http:// - link here -").get(); // Connect to website and parse its html
Elements links = doc.select("a[href]"); // Select all 'a'-tags' with 'href'-attribute
for( Element element : links ) // iterate over all links (example)
{
// process element
}
文档:
- 选择器API(也提供DOM API)
- 食谱(示例)
- 列表链接
(Example)
- JavaDoc
Btw。你能再解释一下吗?
除非它们在锚标签中