使用jsoup有一种方法可以获得在css类中具有display none样式的class属性的div标记中的锚标记.



我有一个文档,我正试图从中提取a标记。其中一些位于具有class属性的div标记中,并且该类具有display:none属性集。它们不会直接使用div标记中的style属性来隐藏。我想消除这些。css使用链接标记包含在页面中。

选择所有<a>-标记,并搜索其中一个父级是否是具有隐藏类的<div>

for (Element a : doc.getElementsByTag("a")) {
    for (Element parent : a.parents()) {
        if (parent.tagName().equals("div") && parent.hasClass("hidden")) {
            a.remove();
        }
    }
}

或者更简单-只需使用隐藏类删除<div>中的所有锚点:

doc.select("div.hidden a").remove();

相关内容

最新更新