使用 Java HTML 解析器检索框架源代码



我浏览了一些Java HtmlParser(Jericho,HtmlCLeaner,...),但我找不到在检索页面时将html框架标签替换为实际源代码的功能。

有谁知道任何这样做的解析器?

答:

就像 Phani 指出我需要一个 Html 抓取器(不是解析器,更干净)

HtmlUnit似乎可以解决问题:http://htmlunit.sourceforge.net/frame-howto.html

从您的用例来看,您需要刮刀而不是清洁器。

清洁剂 - 通常很脏,形状不良,不适合进一步加工。对于此类文档的任何严重消费,有必要首先清理混乱,并将顺序带到标签,属性和普通文本。

刮板 - 按语法顺序阅读页面并编辑 html 页面。

http://sourceforge.net/projects/htmlscraper/

最新更新