如何与crawler4j添加(集成)crawljax



我在Web Crawler上工作,该网站使用Crawler4J获取数据表单,一切顺利,但主要问题是基于Ajax的事件。因此,我发现CrawlJax库做到了这一点,但是我无法在哪里以及何时使用它。

我什么时候使用它(我的意思是工作序列)?

  • 在使用crawler4j获取页面之前。

  • 使用crawler4j获取页面后

  • 我是否使用crawler4j使用URL并使用crawljax来获取Ajax数据(页)。

库crawljax基本上是一个出于其目的的爬网。集成到crawler4j中需要大量的手动努力。

我建议您在crawler4j前使用硒和/或casperjs和/或phantomjs的组合,即,您可以在crawler4j前面运行JavaScript引擎作为代理。但是,这将减慢您的Web-Crawleer的性能

相关内容

  • 没有找到相关文章

最新更新