从 GWT 页面中提取 HTML 内容



我想解析用GWT编写的HTML页面的内容。我尝试使用杰里科HTML内容解析器对其进行解析,但问题是页面源没有内容。在对GWT页面进行了一些研究之后,我了解到GWT页面是用JAVA编写的,GWT编译器从java代码创建了一个复杂的js页面结构,以在浏览器上显示HTML内容。

有没有办法解析这些类型的页面?

就像(m)任何"单页Web应用程序"(包括Twitter,它不是用GWT构建的)一样,你必须运行JavaScript代码,然后抓取DOM。

这可以使用HtmlUnit,PhantomJS或类似工具轻松完成(一切都是相对的)。

如果代码是用OBF - Obfuscated mode编译的(代码通常以这种模式编译用于生产用途),这将非常困难,因为创建的JS文件是非人类可读的。

此链接可能有助于您更好地了解 GWT 编译器。

编辑

给你。这也可能会有所帮助。这里提到了如何De-obfuscate the Javascript.

编辑2

GWT-渗透-测试-工具集 - 检查此工具。

最新更新