除了图像的下采样二进制网格之外，我可以将哪些功能用于手写OCR

嗨，我一直在搜索研究论文，了解哪些功能适合我在手写OCR分类神经网络中使用。我是一个初学者，所以我一直在拍摄手写字符的图像，在它周围制作一个边界框，然后将其调整为15x20的二进制图像。这意味着我有一个300个特征的输入层。从我在谷歌上发现的论文(其中大多数都很旧)来看，方法确实各不相同。我的准确性还不错，只使用了图像的二进制网格，但我想知道是否有人有其他功能可以用来提高我的准确性。甚至只是指给我一个正确的方向。我真的很感激！

谢谢，Zach

我还没有读过任何关于这个主题的实际论文，但我的建议是要有创意。使用任何你能想到的可能有助于分类器识别数字的东西。

我的第一个想法是尝试识别图像中的"线"，可能是通过修改的"滑动窗口"算法(滑动/旋转线？)，或者尝试识别图像的"最适合的线"(以帮助分类器对斜体或书写风格的变化做出响应)。不过，如果你使用的是神经网络，它应该在没有你手动帮助的情况下处理这些事情(这就是它们的全部意义！)

我将首先关注您的网络的结构和拓扑结构，以尝试提高性能，只有在您无法通过其他方式获得令人满意的性能时，我才会担心其他功能。你也可以尝试改进你已经拥有的功能，确保字符在图像中居中，也许可以尝试一种算法来扭曲斜体字符，使其垂直？

根据我的经验，这类事情通常不会有帮助，但你可能会幸运地遇到一个能改善你的网络的东西：)

相关内容

最新更新

热门标签：