我在Web Crawler上工作,该网站使用Crawler4J获取数据表单,一切顺利,但主要问题是基于Ajax的事件。因此,我发现CrawlJax库做到了这一点,但是我无法在哪里以及何时使用它。
我什么时候使用它(我的意思是工作序列)?
- 在使用crawler4j获取页面之前。
或
- 使用crawler4j获取页面后
或
- 我是否使用crawler4j使用URL并使用crawljax来获取Ajax数据(页)。
库crawljax基本上是一个出于其目的的爬网。集成到crawler4j
中需要大量的手动努力。
我建议您在crawler4j
前使用硒和/或casperjs和/或phantomjs的组合,即,您可以在crawler4j
前面运行JavaScript引擎作为代理。但是,这将减慢您的Web-Crawleer的性能