小贝子编程

如何与crawler4j添加(集成)crawljax

我在Web Crawler上工作，该网站使用Crawler4J获取数据表单，一切顺利，但主要问题是基于Ajax的事件。因此，我发现CrawlJax库做到了这一点，但是我无法在哪里以及何时使用它。

我什么时候使用它（我的意思是工作序列）？

或

或

库crawljax基本上是一个出于其目的的爬网。集成到crawler4j中需要大量的手动努力。

我建议您在crawler4j前使用硒和/或casperjs和/或phantomjs的组合，即，您可以在crawler4j前面运行JavaScript引擎作为代理。但是，这将减慢您的Web-Crawleer的性能

相关内容