使用 solr 6.4.1 配置 Tesseract

如何使用 solr 6.4.1 配置 Tika OCR。我索引了文档，包括PDF，图像和MS办公文档，但问题发生了Tika没有从图像中提取文本，也没有从PDF和MS办公文档中的图像中提取文本。为此，我研究了使用Tika OCR。为此，我正在安装 tika-app-1.7.jar 和 Tesseract，但我不知道如何使用我的 Solr 内核配置它们。

你不需要做任何特别的事情。只需为您的发行版获取Tesseract OCR设置并将其安装在系统上即可。确保您的PATH变量具有 Tesseract 主目录的条目，并且TESSDATA_PREFIX变量已设置并指向 Tesseract 主目录。重新启动Solr，您就可以开始了。当您通过/update/extract处理程序将文档推送到索引时，您应该能够看到 OCR 组件。

默认情况下，Tesseract仅随英文模型一起提供。从此处获取其他语言的模型。

相关内容

最新更新

热门标签：