Tesseract无法识别带有手写文本的图像,我该怎么办?



正如我在上一个问题中问的那样,我面临的问题是我有数百张手写笔记的图像。它们是从不同的人那里写的,但它们是按顺序写的,所以你知道例如person1img1.jpg->img100.jpg.手写风格因人而异,但笔记的某些部分始终是固定的(也许这可以帮助算法(。

我遵循了一个用户的建议来使用tesseract但它无法识别任何文本。文本不是英文的,但我确实使用了适当的语言数据文件。

我对ai的了解有限,但从搜索和查看一些论文来看,这似乎可以通过CNN来完成。有人可以指导我应该从这里做什么吗?我想继续这个项目,但我也没有太多时间来学习神经网络。实施解决此任务的挑战性有多大?

我不会使用 tesseract 进行手写识别。您可以训练 tesseract 进行手写识别,但开箱即用,它适用于打印文本以及许多字体和语言。

这里有两个链接如何自己训练它:

  • 使用字典训练的手写

  • 使用 Tesseract 进行手写识别

我在亚马逊识别方面取得了更好的结果:https://aws.amazon.com/en/recognition 我想为它提供一个离线 java 库,但还没有找到。 我的下一步将是尝试ABBYY服务,因为它们也可以专注于分离的手写字符:https://abbyy.technology/en:features:ocr:icr

更新

如果有人在几年后找到图书馆或良好的服务,我很乐意在评论中看到他们。

相关内容

  • 没有找到相关文章

最新更新