除了图像的下采样二进制网格之外,我可以将哪些功能用于手写OCR



嗨,我一直在搜索研究论文,了解哪些功能适合我在手写OCR分类神经网络中使用。我是一个初学者,所以我一直在拍摄手写字符的图像,在它周围制作一个边界框,然后将其调整为15x20的二进制图像。这意味着我有一个300个特征的输入层。从我在谷歌上发现的论文(其中大多数都很旧)来看,方法确实各不相同。我的准确性还不错,只使用了图像的二进制网格,但我想知道是否有人有其他功能可以用来提高我的准确性。甚至只是指给我一个正确的方向。我真的很感激!

谢谢,Zach

我还没有读过任何关于这个主题的实际论文,但我的建议是要有创意。使用任何你能想到的可能有助于分类器识别数字的东西。

我的第一个想法是尝试识别图像中的"线",可能是通过修改的"滑动窗口"算法(滑动/旋转线?),或者尝试识别图像的"最适合的线"(以帮助分类器对斜体或书写风格的变化做出响应)。不过,如果你使用的是神经网络,它应该在没有你手动帮助的情况下处理这些事情(这就是它们的全部意义!)

我将首先关注您的网络的结构和拓扑结构,以尝试提高性能,只有在您无法通过其他方式获得令人满意的性能时,我才会担心其他功能。你也可以尝试改进你已经拥有的功能,确保字符在图像中居中,也许可以尝试一种算法来扭曲斜体字符,使其垂直?

根据我的经验,这类事情通常不会有帮助,但你可能会幸运地遇到一个能改善你的网络的东西:)

相关内容

最新更新