什么是最好的开源网络爬虫工具,用Java编写。
试试crawler4j。您只需要实现一个简单的接口来控制访问哪些url以及如何处理每个抓取的页面。
在java中,我认为这可以归结为Nutch vs Heritrix。为了得到更好的答案,你应该详细说明你的需求是什么。
什么是最好的开源网络爬虫工具,用Java编写。
试试crawler4j。您只需要实现一个简单的接口来控制访问哪些url以及如何处理每个抓取的页面。
在java中,我认为这可以归结为Nutch vs Heritrix。为了得到更好的答案,你应该详细说明你的需求是什么。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium