我有一个运行的设置,我可以在Solr(8.11.2与tika 1.27)中提取,并从Tesseract(5.2.0)获得OCR。
为此,我更新了TesseractOCRConfig。tika-parser -1.27.jar中带有
的属性tesseractPath=C:/Tesseract-OCR
tessdataPath=C:/Tesseract-OCR/tessdata/
language=dan
我现在试图用solr 9.1 (Tika 1.28.4)和相同的Tesseract安装复制设置,文件被提取,但我没有得到任何OCR。
在9.1.0中,当提取jpg文件时,我得到以下内容:
"x_parsed_by":["org.apache.tika.parser.DefaultParser",
"org.apache.tika.parser.jpeg.JpegParser"],
在8.11.2的设置中,当提取相同的jpg时,我得到以下内容:
"x_parsed_by":["org.apache.tika.parser.DefaultParser",
"org.apache.tika.parser.ocr.TesseractOCRParser",
"org.apache.tika.parser.jpeg.JpegParser"],
打开9中默认打开的安全管理器。这可以通过设置环境变量来实现:
SOLR_SECURITY_MANAGER_ENABLED=false
问题是org.apache.tika.parser.ocr.TesseractOCRParser
要求对安装tesseract的文件夹有执行权限。
当确定是否应该加载TesseractOCRParser时,它检查是否可以根据配置定位和调用Tesseract,check
方法用于查看它是否可以执行外部解析器捕获SecurityException
以及其他异常,并且在没有任何日志记录的情况下返回false,因此没有迹象表明某些配置错误,即使您打开日志记录。