图像处理在Apache Tika中是如何工作的



我正在使用Apache Tika从图像中提取文本。Tika反过来使用tesseract来识别文本。但是比较 Tika 和 Tessaract(我也作为独立的命令行工具安装(的输出,我注意到前者比单独的 Tesseract 给出的结果要好得多。 那么,Tika 在调用捆绑的 Tesseract 实例之前是否使用一些捆绑的图像预处理器来提高图像质量?还是蒂卡将一些论据传递给Tesseract以改善结果?

我找到了Tika发送给Tesseract的所有参数。对提高图像质量最重要的是--psm 1(页面分割方法(

相关内容

  • 没有找到相关文章

最新更新