使用tika库从java中的图像中提取文本



我需要从图像中提取文本,所以我发现很少有OCR库

  1. Tes4j

这不起作用,所以我搬到了apache tika。

在apache tika中,我尝试了ImageParser和JpegParser。它提供了文件信息,但没有在我的图像文件中提供文本。

您也可以从命令行运行tika。只在您想要执行OCR的图像上运行它:

java -jar ./tika-app/target/tika-app-1.13-SNAPSHOT.jar -t ~/Desktop/tess.png

Tika在内部使用tesseract来执行OCR。所以你应该把它安装在你的PATH上。

对于图像处理,Tessaract是最好的api,它与java一起提供了一些方法,请尝试一下。您可以在此处找到更多详细信息

相关内容

  • 没有找到相关文章

最新更新