我正在寻找一个可以用于以下场景的框架:我有两个web服务。我调用第一个有json响应的服务。在json响应中,我有一些Id,我用它们来调用其他服务,然后合并服务响应并将其存储在db中。我想每天打电话给这些服务来更新我的数据库。
我发现的是Nutch,但它看起来像是一个主要用于html页面的网络爬虫。有什么框架可以用于上面的场景吗?我正在寻找一个容错的、可销售的java框架。
谢谢!
您可以使用Nutch,它不限于HTML。如果某个东西可以通过URL访问,那么Nutch会获取它,但是您可能需要实现一些自定义的解析器和索引器来处理您的内容。
或者风暴爬行器将是可扩展和可定制的。你可能会发现它比纳奇更容易学习,也更灵活。在您的用例中,SC前面可以有一个或多个队列(例如RabbitMQ、AWS SQS等)。种子URL将是第一个服务上使用的URL,您可以使用自定义解析过滤器来生成第二个服务的URL。最后,您将有一个定制的索引螺栓,将数据发送到数据库中。风暴有大量可用资源,你可以背上。
HTH