小贝子编程

如何从网站url获得一个干净的xml表示

本文关键字：一个表示 xml 网站 url java xml dom sax htmlcleaner
更新时间 : 2023-08-24
英文 : How to get a clean xml representation from a website url

我试图得到一个网站url的干净的表示，所以我可以把'html'放到

里面

org.w3c.dom.Document

能够用xpath做进一步的处理，等等。

当我尝试将html放入文档中时，我得到的结果是:

org.xml.sax。SAXParseException:元素类型"link"必须包含" endelement "

意思是"链接"必须关闭，而这个网站不是这样的

那么，这可能是正确的方法吗?我应该"修复"文档并替换错误吗?

我试过net.sourceforge.htmlcleaner，但它没有弄清楚，如何"修复"错误。

有什么帮助吗?

问候,Holger

你可以看看Neko: http://nekohtml.sourceforge.net/

非常适合我

HTML通常不是xml，所以Document不能处理它。您需要一个特殊的库，如JSoup

最新更新

复选框setTextPosition(TOP)不工作
CSRF验证失败.请求中止-即使添加了{% csrf_token %}
使用 psql 的复制语句时如何压缩数据？
如何在Flutter中更改键盘
FXMLLoader无法找到JavaFX类，但手动创建JavaFX创建工作
尝试用Intent解释Android Studio中的Java方法
"无法获取/api/items"
如何使用PowerShell确认系统初始化完成?
将值从文本框传递给actionlink
正确解析jobobject
如何使用Hedera JS SDK生成一组基于BIP-39种子短语和自定义派生路径的ECDSA密钥对?
Java 8流嵌套ForEach与不同的条件
如何对包含句点(.)的关键字进行语法高亮显示?
属性图像 URL 在类型 {} 上不存在
写一个约束来强制一个值至少出现一次
基于锚展开手风琴
React+Jest:每当我试图访问DOM属性(即:toHaveStyle)时，测试将永远挂起
如何在WPF中显示数据网格中的用户输入?
如何在特定端口运行mongo docker实例
匕首柄-碎片绑定为空?
在flask中使用WTFORMS和SQAlchemy更新值
不等式运算符无法解析boolean和int数据类型
GSUB替换3个或更多的重复字符
如何使用新的RenderEffect库模糊视图?
Oracle 19c upgrade: JDBC error java.sql.SQLRecoverableExcept
如何找到和解析行在文本文件开始与某些文本?
入口:目录级别参数
我如何重构下面的代码，以允许我在chatGPT中生成连贯和流畅的文档?
在typescript中添加eventlistener到nodelist
c -为什么我的内核崩溃时，我添加更多的参数到一个函数?

如何从网站url获得一个干净的xml表示

相关内容

最新更新

热门标签：