使用 jSoup,如何提取没有被任何类型的标签包围的文本?



这里有这个HTML代码:

<hr />
<h3>Academic Recovery and Probation Conference Journal</h3>The Recovery Progress Journal is used to
record and guide conference discussions and to monitor students’ academic, behavioral and social
progress. 
<br />

正如你所看到的,"h3"标题下的文本周围没有任何标签?我正在使用jSoup将此信息放入Android应用程序。如果没有标签定义它,我将如何提取这段文本?

我不认为在没有任何其他解析的情况下使用Jsoup本身是可能的。Jsoup定位DOM中的元素,然后允许您访问这些元素的数据。

您必须找到包含所需段落的最小元素,对其运行.text(),然后自己解析.text()的结果。

回答在这里(谢天谢地):

Jsoup -提取文本

懒人释义版:

// You need to get Nodes, not Elements
Document doc = Jsoup.parse(str);
Element div = doc.select("div").first();
for (Node node : div.childNodes()) {
    System.out.println(
        String.format(
            "%s %s",
            node.getClass().getSimpleName(),
            node.toString()
        )
    );
}

最新更新