现在我正在使用Crawler4j,对此我很满意,但它不能抓取基于ajax的网站。我曾经在另一种方法中使用过硒,这与phantomjs结合使用效果很好。那么,有没有办法将Selenium插入到crawler4j中呢?
如果没有,Java中是否还有另一个好的库可以处理基于ajax的网站?
(对于webspider,我的意思是,我必须给程序一个url,它会自动开始从网站中提取内容)
基本上是的。crawler4j的源代码托管在GitHub上。
您可以自由贡献一个扩展,因此crawler4j可以获取基于ajax的网站。默认情况下,crawler4j无法获取此类网站。
ApacheNutch能够在抓取网页时呈现JS,如下所述。然而,为Web爬网设置ApacheNutch要比调整现有的代码结构以用于crawler4j多得多。