正如我在上一个问题中问的那样,我面临的问题是我有数百张手写笔记的图像。它们是从不同的人那里写的,但它们是按顺序写的,所以你知道例如person1
写img1.jpg
->img100.jpg
.手写风格因人而异,但笔记的某些部分始终是固定的(也许这可以帮助算法(。
我遵循了一个用户的建议来使用tesseract
但它无法识别任何文本。文本不是英文的,但我确实使用了适当的语言数据文件。
我对ai
的了解有限,但从搜索和查看一些论文来看,这似乎可以通过CNN
来完成。有人可以指导我应该从这里做什么吗?我想继续这个项目,但我也没有太多时间来学习神经网络。实施解决此任务的挑战性有多大?
我不会使用 tesseract 进行手写识别。您可以训练 tesseract 进行手写识别,但开箱即用,它适用于打印文本以及许多字体和语言。
这里有两个链接如何自己训练它:
-
使用字典训练的手写
-
使用 Tesseract 进行手写识别
我在亚马逊识别方面取得了更好的结果:https://aws.amazon.com/en/recognition 我想为它提供一个离线 java 库,但还没有找到。 我的下一步将是尝试ABBYY服务,因为它们也可以专注于分离的手写字符:https://abbyy.technology/en:features:ocr:icr
更新
如果有人在几年后找到图书馆或良好的服务,我很乐意在评论中看到他们。