我们是否可以将WARC文件直接索引到Solr中,而无需先从WARC文件中提取一些中间文件(例如html格式)并存储在硬盘上?
换句话说,我们可以在不在硬盘上存储任何内容的情况下对这些文件进行索引吗?
我们已经为此开发了Web Archive Discovery工具包。它使用ApacheTika,并将其与WARC/ARC读取器和其他一些实用程序相结合,生成合适的记录并将其发布到Solr。
如果你想尝试一下,快速入门应该会有所帮助。
您应该在客户端上执行此操作,因为不清楚您希望这些文件使用哪种模式。然后,您可以以流式方式将内容扩展到内存中,如果需要,可以使用客户端Tika进行处理,并将您想要的任何文档表示发送给Solr。