Using Tesseract OCR with Solr 9.1

我有一个运行的设置，我可以在Solr(8.11.2与tika 1.27)中提取，并从Tesseract(5.2.0)获得OCR。

为此，我更新了TesseractOCRConfig。tika-parser -1.27.jar中带有

的属性

tesseractPath=C:/Tesseract-OCR
tessdataPath=C:/Tesseract-OCR/tessdata/
language=dan

我现在试图用solr 9.1 (Tika 1.28.4)和相同的Tesseract安装复制设置，文件被提取，但我没有得到任何OCR。

在9.1.0中，当提取jpg文件时，我得到以下内容:

"x_parsed_by":["org.apache.tika.parser.DefaultParser",
"org.apache.tika.parser.jpeg.JpegParser"],

在8.11.2的设置中，当提取相同的jpg时，我得到以下内容:

"x_parsed_by":["org.apache.tika.parser.DefaultParser",
"org.apache.tika.parser.ocr.TesseractOCRParser",
"org.apache.tika.parser.jpeg.JpegParser"],

打开9中默认打开的安全管理器。这可以通过设置环境变量来实现:

SOLR_SECURITY_MANAGER_ENABLED=false

问题是org.apache.tika.parser.ocr.TesseractOCRParser要求对安装tesseract的文件夹有执行权限。

当确定是否应该加载TesseractOCRParser时，它检查是否可以根据配置定位和调用Tesseract,check方法用于查看它是否可以执行外部解析器捕获SecurityException以及其他异常，并且在没有任何日志记录的情况下返回false，因此没有迹象表明某些配置错误，即使您打开日志记录。

相关内容

最新更新

热门标签：