我需要从图像中提取文本,所以我发现很少有OCR库
- Tes4j
这不起作用,所以我搬到了apache tika。
在apache tika中,我尝试了ImageParser和JpegParser。它提供了文件信息,但没有在我的图像文件中提供文本。
您也可以从命令行运行tika。只在您想要执行OCR的图像上运行它:
java -jar ./tika-app/target/tika-app-1.13-SNAPSHOT.jar -t ~/Desktop/tess.png
Tika在内部使用tesseract来执行OCR。所以你应该把它安装在你的PATH上。
对于图像处理,Tessaract
是最好的api,它与java一起提供了一些方法,请尝试一下。您可以在此处找到更多详细信息