有没有OCR可以将它看到的内容与我给它的可能单词列表进行比较

我正在寻找一个开源OCR，但我可以告诉程序我希望它查找哪些字母。例如，如果只有字母和逗号是可能的，那么我不希望OCR浪费资源来确定它是否是数字。此外，我希望OCR输出它"认为"它所看到的可能性。例如，如果有一个"I"，OCR可能会认为它是小写的"L"，但它也应该有"I"作为接近秒。基本上，我希望OCR能给我一个可能性列表，也许还有数字来表明它的确定程度。例如，它可能会说"l"：55%，"I"：40%，其他：5%。

另一件事是，我会知道字母是什么文本类型，即Ariel，所以让OCR比较和对比不同类型的文本是没有意义的。

基本上，我正在写一个只有一定数量的可能性存在的程序。例如，假设我正在使用OCR从元素周期表中读取元素。元素数量有限，因此OCR应该能够猜测"氦"实际上是"氦"。

有这样的东西吗，或者我必须自己做大量的编码工作吗？谢谢

你可能想看看谷歌开发的开源项目tesseract，它给出了非常好的结果，并且对OCR有很多支持。

为了提供自己的单词列表来识别文本，只需将tessdata/eng.user-words替换为自己的单词表，格式相同-UTF8文本，每行一个单词。

为了获得很高的准确性，请勾选这个问题。

相关内容

最新更新

热门标签：