如何通过网址获取 xml 页面

好的，所以我得到了一些像 https://stackoverflow.com/这样的 url 链接，我正在尝试在文档中解析它但出现错误。为什么？因为这不是 xml 文件，所以问题是如果我只得到 url，我如何以 xml 形式获取数据？我的代码：

public class URLReader {
public static void main(String[] args) throws Exception {

// or if you prefer DOM:
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = dbf.newDocumentBuilder();
Document doc = db.parse(new URL("https://stackoverflow.com/").openStream());
int nodes = doc.getChildNodes().getLength();
System.out.println(nodes + " nodes found");
}
}

要解析 HTML，您可以使用 JSOUP： https://jsoup.org/

该库还提供了一些将HTML转换为XHTML的功能，即某种XML：

Document document = Jsoup.parse(html);
document.outputSettings().syntax(Document.OutputSettings.Syntax.xml);  
document.outputSettings().escapeMode(org.jsoup.nodes.Entities.EscapeMode.xhtml);
String xhtml=document.html();

相关内容

最新更新

热门标签：