如何在风暴爬虫中下载图片和文件?

>我使用StormCrawler和SOLR从不同的网页抓取了一些图像和文件URL，并且我在SOLR的状态核心中具有这些URL。现在我想从这些 URL 下载文件并将它们保存在我的机器上。任何建议如何以简单且可扩展的方式执行此操作？谢谢。

爬虫已经下载了它们！您不需要再次这样做。不过，您需要的是决定在哪里以及如何存储内容。如果你要构建一个搜索引擎，那么你将使用SOLR或Elasticsearch索引器;如果您需要抓取站点，则需要将提取的元数据发送到数据库中;如果您想要存档页面，那么 WARC 模块将允许您生成存档。

您想要页面的二进制内容还是提取的文本和元数据？如果你想要前者，那么 WARC 模块就可以了。否则，您可以随时编写自己的索引器螺栓，StdOutIndexer 应该是一个很好的起点。

相关内容