Java Jericho超链接解析



我正试图找到一种方法来获取网页中的所有超链接,除非它们在锚标记()中。

为此,我使用了Jericho解析器。

我最初的方法是List<Element> elementList = source.getAllElements();getAllElements(HTMLElementName.A),但其他元素中也可能包含锚链接,所以我认为这不是正确的方法。

我建议您使用J汤进行Html处理。

下面是一个如何获取所有链接的示例(=a-带有href-属性的标签):

Document doc = Jsoup.connect("http:// - link here -").get(); // Connect to website and parse its html
Elements links = doc.select("a[href]"); // Select all 'a'-tags' with 'href'-attribute
for( Element element : links ) // iterate over all links (example)
{
    // process element
}

文档:

  • 选择器API(也提供DOM API)
  • 食谱(示例)
  • 列表链接(Example)
  • JavaDoc

Btw。你能再解释一下吗?

除非它们在锚标签中

相关内容

  • 没有找到相关文章