用于索引和搜索文件夹中的PDF文件的解决方案



我们有一位客户正在使用谷歌搜索设备(GSA(搜索数千个PDF文件。PDF文件位于按子文件夹组织的文件共享中。它定期查找新文件并将它们添加到数据库中。

GSA工作得不够好,所以现在他们需要替代方案。例如,他们的GSA无法正确搜索PDF中的垂直文本。我们已经研究了ApacheLucene和Solr以及Tika和ExtractingRequestHandler。

我已经启动并运行了Solr示例,并使用curl添加了一个可以搜索的PDF文件,甚至可以搜索垂直文本。我们的客户希望应用程序自动检测新文件;如果我能每15分钟或每小时重新索引一次数据库,那就太好了。

所以我正在考虑制作一个shell脚本来查找新文件并添加它们或类似的东西。也许在添加文件之前查询Solr,看看它是否已经在Solr中。这有道理吗?

此外,Solr是我们想要做的事情的合适工具吗?

您所说的是"delta索引"。因此,只有新添加或更改的文档才会被编入索引。您应该阅读Solr文档以了解有关此方面的更多信息。

最新更新