用于索引和搜索文件夹中的PDF文件的解决方案

我们有一位客户正在使用谷歌搜索设备(GSA(搜索数千个PDF文件。PDF文件位于按子文件夹组织的文件共享中。它定期查找新文件并将它们添加到数据库中。

GSA工作得不够好，所以现在他们需要替代方案。例如，他们的GSA无法正确搜索PDF中的垂直文本。我们已经研究了ApacheLucene和Solr以及Tika和ExtractingRequestHandler。

我已经启动并运行了Solr示例，并使用curl添加了一个可以搜索的PDF文件，甚至可以搜索垂直文本。我们的客户希望应用程序自动检测新文件；如果我能每15分钟或每小时重新索引一次数据库，那就太好了。

所以我正在考虑制作一个shell脚本来查找新文件并添加它们或类似的东西。也许在添加文件之前查询Solr，看看它是否已经在Solr中。这有道理吗？

此外，Solr是我们想要做的事情的合适工具吗？

您所说的是"delta索引"。因此，只有新添加或更改的文档才会被编入索引。您应该阅读Solr文档以了解有关此方面的更多信息。

相关内容