Nutch或其他框架来抓取Web服务

我正在寻找一个可以用于以下场景的框架：我有两个web服务。我调用第一个有json响应的服务。在json响应中，我有一些Id，我用它们来调用其他服务，然后合并服务响应并将其存储在db中。我想每天打电话给这些服务来更新我的数据库。

我发现的是Nutch，但它看起来像是一个主要用于html页面的网络爬虫。有什么框架可以用于上面的场景吗？我正在寻找一个容错的、可销售的java框架。

谢谢！

您可以使用Nutch，它不限于HTML。如果某个东西可以通过URL访问，那么Nutch会获取它，但是您可能需要实现一些自定义的解析器和索引器来处理您的内容。

或者风暴爬行器将是可扩展和可定制的。你可能会发现它比纳奇更容易学习，也更灵活。在您的用例中，SC前面可以有一个或多个队列（例如RabbitMQ、AWS SQS等）。种子URL将是第一个服务上使用的URL，您可以使用自定义解析过滤器来生成第二个服务的URL。最后，您将有一个定制的索引螺栓，将数据发送到数据库中。风暴有大量可用资源，你可以背上。

HTH

相关内容

最新更新

热门标签：