使用Selenium解析页面(部分由JavaScript生成)



我遇到了一个问题:我想解析一个页面(例如这个页面)来收集有关所提供应用程序的信息,并将这些信息保存到数据库中。

此外,我正在使用crawler4j来访问每个(可用的)页面。但问题是,正如我所看到的,crawler4j需要在源代码中遵循链接。

但在这种情况下,href是由一些JavaScript代码生成的,因此爬网程序4j不会获得要访问的新链接/要爬网的页面。

所以我的想法是使用Selenium,这样我就可以像在Chrome或Firefox这样的真正浏览器中一样检查几个元素(我对此很陌生)。

但是,老实说,我不知道如何获得"生成的"HTML而不是源代码。

有人能帮我吗?

要检查元素,您不需要Selenium IDE,只需使用带有Firebug扩展的Firefox即可。此外,使用附加的开发工具,您可以查看页面的源代码以及生成的源代码(这主要用于PHP)。

Crawler4J无法处理这样的javascript。它最好留给另一个更高级的爬网库。点击此处查看此回复:

使用java 的Web爬网(启用Ajax/JavaScript的页面)

相关内容

  • 没有找到相关文章

最新更新