Document doc=Jsoup.connect(url).userAgent("Mozilla/5.0 +http://www.google.com/bot.html)").timeout(100000).get();
data.add(doc.body().text());
这给了我文本,包括超链接文本或链接文本,但我不需要它。我只想要纯文本,例如用<p>
、<b>
等标签编写的文本或没有任何标签。
如果您只想删除所有a
标签,您只需select
并remove
它们:
doc.select("a").remove();
您可以通过将更多元素添加到select
来附加更多要删除的元素
doc.select("a, div, script").remove();
试试这个:
for(Element e : doc.body().select("*:not(a)")) {
data.add(e.ownText());
}
您可以使用 CSS 查询排除其他元素,如下所示:
*:not(a, p, div)