windows运行时-识别Micr字体使用OCR引擎



我使用Microsoft OCR Library来阅读文本。

微软OCR库工作完美。然而,我想阅读以下的字符列表中给出的链接http://www.ict4u.net/databases/database-images/micr.jpg。是否有一种方法可以训练OCR库读取以下字符,或者是否有一种语言允许读取以下字符。

[Microsoft OCR工作人员在这里]我们还不支持培训OCR来为您的用例定制它。然而,我们确实积极地关注stackoverflow,看看开发人员需要什么,所以我们可以继续改进OCR引擎。

我使用微软OCR已经有一段时间了。与宇宙魔方相比,它只有非常基本的功能。

例如Microsoft OCR返回单词和行。但这些台词都是废话。随机地将2或3个单词组合成一条"线",但它们并不是一条真正的线。这些"线"是完全无序的。在这方面,它比宇宙魔方还要糟糕。你必须取每个单词的坐标,然后自己排序。

Microsoft不返回字符的矩形,并且绝对没有办法以任何方式配置或训练Microsoft OCR。你可以用Windows Update为"Basic Typing"= OCR添加语言(参见http://www.thewindowsclub.com/install-uninstall-languages-windows-10),但是你不能训练你自己的语言数据。

MSDN表示,以下25种语言的支持精度不同:

  • 优秀:捷克语,丹麦语,荷兰语,英语,芬兰语,法语,德语,匈牙利语,意大利语,挪威语,波兰语,葡萄牙语,罗马尼亚语,塞尔维亚西里尔语,塞尔维亚拉丁语,斯洛伐克语,西班牙语和瑞典语。
  • 非常好:简体中文、希腊文、日文、俄文和土耳其文。
  • 好:中国传统和韩国。

识别质量与Tesseract非常相似。它甚至有和宇宙魔方完全一样的问题。有些单个字符无法识别(像单个'$'这样的单独符号),并且它具有与Tesseract相同的星号问题。它也会像《宇宙魔方》那样在错误的地方插入空格。所以我问自己,微软是否在幕后使用Tesseract ?

然而,微软OCR比Tesseract有一个优势:图像预处理要好得多。无论你是在黄色背景上使用红色文本,还是在黑色背景上使用白色文本,都没有关系。这是一个捕获Tesseract需要一个高质量的黑白图像作为输入。

对于两个OCR库都适用:如果您有识别问题,请尝试放大图像。甚至模糊图像也可能非常有用,因为这可以消除图像中的噪点。

最新更新