如何将无效的 XHTML 网站另存为有效的 XML



有一个网站是无效的XHTML(缺少一些结束标签)。

我想使用 XSLT 处理其内容,但因此,我需要有效的 XML 输入。

是否可以将浏览器从无效的 XHTML 输入创建的 DOM 文档保存为有效的 XML/XHTML?

是的。有几个库可以处理无效标记并将其作为有效的 xml/xhtml 返回。其中之一是整洁的 http://tidy.sourceforge.net/

如果您可以访问该网站,则可以将输出打印到缓冲区中,然后清理它......顺便说一句:有效的 xhtml 也是有效的 XML。

如果使用 .NET 作为服务器端技术,则可以尝试 Html Agility Pack。它可以加载无效的HTML/XHTML并将其转换为有效的XML。