这里有这个HTML代码:
<hr />
<h3>Academic Recovery and Probation Conference Journal</h3>The Recovery Progress Journal is used to
record and guide conference discussions and to monitor students’ academic, behavioral and social
progress.
<br />
正如你所看到的,"h3"标题下的文本周围没有任何标签?我正在使用jSoup将此信息放入Android应用程序。如果没有标签定义它,我将如何提取这段文本?
我不认为在没有任何其他解析的情况下使用Jsoup本身是可能的。Jsoup定位DOM中的元素,然后允许您访问这些元素的数据。
您必须找到包含所需段落的最小元素,对其运行.text(),然后自己解析.text()的结果。
回答在这里(谢天谢地):
Jsoup -提取文本
懒人释义版:
// You need to get Nodes, not Elements
Document doc = Jsoup.parse(str);
Element div = doc.select("div").first();
for (Node node : div.childNodes()) {
System.out.println(
String.format(
"%s %s",
node.getClass().getSimpleName(),
node.toString()
)
);
}