我有一个文档,我正试图从中提取a标记。其中一些位于具有class属性的div标记中,并且该类具有display:none属性集。它们不会直接使用div标记中的style属性来隐藏。我想消除这些。css使用链接标记包含在页面中。
选择所有<a>
-标记,并搜索其中一个父级是否是具有隐藏类的<div>
:
for (Element a : doc.getElementsByTag("a")) {
for (Element parent : a.parents()) {
if (parent.tagName().equals("div") && parent.hasClass("hidden")) {
a.remove();
}
}
}
或者更简单-只需使用隐藏类删除<div>
中的所有锚点:
doc.select("div.hidden a").remove();