使用 solr 6.4.1 配置 Tesseract



如何使用 solr 6.4.1 配置 Tika OCR。 我索引了文档,包括PDF,图像和MS办公文档,但问题发生了Tika没有从图像中提取文本,也没有从PDF和MS办公文档中的图像中提取文本。为此,我研究了使用Tika OCR。 为此,我正在安装 tika-app-1.7.jar 和 Tesseract,但我不知道如何使用我的 Solr 内核配置它们。

你不需要做任何特别的事情。只需为您的发行版获取Tesseract OCR设置并将其安装在系统上即可。确保您的PATH变量具有 Tesseract 主目录的条目,并且TESSDATA_PREFIX变量已设置并指向 Tesseract 主目录。重新启动Solr,您就可以开始了。当您通过/update/extract处理程序将文档推送到索引时,您应该能够看到 OCR 组件。

默认情况下,Tesseract仅随英文模型一起提供。从此处获取其他语言的模型。

最新更新