windows运行时-识别Micr字体使用OCR引擎

我使用Microsoft OCR Library来阅读文本。

微软OCR库工作完美。然而，我想阅读以下的字符列表中给出的链接http://www.ict4u.net/databases/database-images/micr.jpg。是否有一种方法可以训练OCR库读取以下字符，或者是否有一种语言允许读取以下字符。

[Microsoft OCR工作人员在这里]我们还不支持培训OCR来为您的用例定制它。然而，我们确实积极地关注stackoverflow，看看开发人员需要什么，所以我们可以继续改进OCR引擎。

我使用微软OCR已经有一段时间了。与宇宙魔方相比，它只有非常基本的功能。

例如Microsoft OCR返回单词和行。但这些台词都是废话。随机地将2或3个单词组合成一条"线"，但它们并不是一条真正的线。这些"线"是完全无序的。在这方面，它比宇宙魔方还要糟糕。你必须取每个单词的坐标，然后自己排序。

Microsoft不返回字符的矩形，并且绝对没有办法以任何方式配置或训练Microsoft OCR。你可以用Windows Update为"Basic Typing"= OCR添加语言(参见http://www.thewindowsclub.com/install-uninstall-languages-windows-10)，但是你不能训练你自己的语言数据。

MSDN表示，以下25种语言的支持精度不同:

优秀:捷克语，丹麦语，荷兰语，英语，芬兰语，法语，德语，匈牙利语，意大利语，挪威语，波兰语，葡萄牙语，罗马尼亚语，塞尔维亚西里尔语，塞尔维亚拉丁语，斯洛伐克语，西班牙语和瑞典语。
非常好:简体中文、希腊文、日文、俄文和土耳其文。
好:中国传统和韩国。

识别质量与Tesseract非常相似。它甚至有和宇宙魔方完全一样的问题。有些单个字符无法识别(像单个'$'这样的单独符号)，并且它具有与Tesseract相同的星号问题。它也会像《宇宙魔方》那样在错误的地方插入空格。所以我问自己，微软是否在幕后使用Tesseract ?

然而，微软OCR比Tesseract有一个优势:图像预处理要好得多。无论你是在黄色背景上使用红色文本，还是在黑色背景上使用白色文本，都没有关系。这是一个捕获Tesseract需要一个高质量的黑白图像作为输入。

对于两个OCR库都适用:如果您有识别问题，请尝试放大图像。甚至模糊图像也可能非常有用，因为这可以消除图像中的噪点。

相关内容

最新更新

热门标签：