有没有墨卡托网络爬虫的开源实现?



Marc Najork和Allan Heydon写了一篇关于他们的Java、可伸缩和可扩展的网络爬虫Mercator的优秀论文。

以下是墨卡托网络爬虫的一些资源:

  • 墨卡托报告(pdf)
  • 墨卡托介绍(pdf)
  • 墨卡托网络爬虫文件(pdf)
    在Google中查询的第一个结果:"Web爬虫内容Najork pdf"

有没有人看到任何实现的爬虫(最好是java)?

更新:
我是我在链接上遇到了麻烦,我要试着为参考论文找到更好的链接。

我发现了几个应该非常接近墨卡托的Java爬虫:

  • Nutch是多线程和分布式的。

欢迎其他参考资料

  • Crawler4j - http://code.google.com/p/crawler4j/
  • WebSPHINX - http://www.cs.cmu.edu/~rcm/websphinx/

StormCrawler是一个开源SDK,用于使用Apache Storm构建低延迟的分布式web爬虫。该项目使用Apache v2许可证,由一组可重用资源和组件组成,主要用Java编写。

最新更新