如何从网站url获得一个干净的xml表示



我试图得到一个网站url的干净的表示,所以我可以把'html'放到

里面
org.w3c.dom.Document

能够用xpath做进一步的处理,等等。

当我尝试将html放入文档中时,我得到的结果是:

org.xml.sax。SAXParseException:元素类型"link"必须包含" endelement "

意思是"链接"必须关闭,而这个网站不是这样的

那么,这可能是正确的方法吗?我应该"修复"文档并替换错误吗?

我试过net.sourceforge.htmlcleaner,但它没有弄清楚,如何"修复"错误。

有什么帮助吗?

问候,Holger

你可以看看Neko: http://nekohtml.sourceforge.net/

非常适合我

HTML通常不是xml,所以Document不能处理它。您需要一个特殊的库,如JSoup

相关内容

  • 没有找到相关文章

最新更新