如何通过网址获取 xml 页面



好的,所以我得到了一些像 https://stackoverflow.com/这样的 url 链接,我正在尝试在文档中解析它但出现错误。为什么?因为这不是 xml 文件,所以问题是如果我只得到 url,我如何以 xml 形式获取数据? 我的代码:

public class URLReader {
public static void main(String[] args) throws Exception {

// or if you prefer DOM:
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = dbf.newDocumentBuilder();
Document doc = db.parse(new URL("https://stackoverflow.com/").openStream());
int nodes = doc.getChildNodes().getLength();
System.out.println(nodes + " nodes found");
}
}

要解析 HTML,您可以使用 JSOUP: https://jsoup.org/

该库还提供了一些将HTML转换为XHTML的功能,即某种XML:

Document document = Jsoup.parse(html);
document.outputSettings().syntax(Document.OutputSettings.Syntax.xml);  
document.outputSettings().escapeMode(org.jsoup.nodes.Entities.EscapeMode.xhtml);
String xhtml=document.html();

最新更新