如何在风暴爬虫中下载图片和文件?



>我使用StormCrawler和SOLR从不同的网页抓取了一些图像和文件URL,并且我在SOLR的状态核心中具有这些URL。现在我想从这些 URL 下载文件并将它们保存在我的机器上。任何建议如何以简单且可扩展的方式执行此操作? 谢谢。

爬虫已经下载了它们!您不需要再次这样做。不过,您需要的是决定在哪里以及如何存储内容。如果你要构建一个搜索引擎,那么你将使用SOLR或Elasticsearch索引器;如果您需要抓取站点,则需要将提取的元数据发送到数据库中;如果您想要存档页面,那么 WARC 模块将允许您生成存档。

您想要页面的二进制内容还是提取的文本和元数据?如果你想要前者,那么 WARC 模块就可以了。否则,您可以随时编写自己的索引器螺栓,StdOutIndexer 应该是一个很好的起点。

最新更新