OCR tesseract:针对特殊字体类型的训练数据创建问题(使用Jtessboxeditor)


  • 无法为windows非原生字体(即catia绘图字体)创建正确的训练数据

  • 即使一些字母数字被识别,带有断字符的字母(如"i,j"等),特殊符号(如:Å(Phi)、°(度)、±(加减))也无法正确识别。其box文件值不正确。

  • JTessboxeditor是我们用来为tesseract训练和创建训练数据的工具

请求您的协助。感谢

我还需要这3个字符——尽管现在回答这个问题可能为时已晚。

可能在所有情况下都没有太大帮助,但Norwegian.traineddata文件确实包含了Å(Phi)字符,这个经过训练的数据文件帮助我处理了这个字符。

°(度)字符可能有点棘手,因为它通常不会被识别,因为它太小了,如果你能看到字符的内部是清晰的,Tesseract可能能够破译。

现在最困难的是±。我还没有破解这个,这可能是一个非常粗糙的方法;但我在想,正负总是只被认为是加号。

我可以利用这个优势。

我可以使用Tesseract的引擎,它公开PageSegMode.SingleChar来检测每个单独的字符,并使用Tesseact的GetSegmentedRegions()获取每个字符所在的位图/图像区域-您可以稍后将所有字符重新组合成一个字符串。

然后我可以运行ImageMagick来计算/比较找到的加号与加号或减号图像的相似程度。最相似的那个会告诉你哪个角色。

使用我的方法,我仍然需要解析已识别的文本,并将其转换为可用的内容。例如,可以检测到的字符为小写,但我希望它为大写。或者度数被检测为撇号,但预期的结果是度数。另一种转换是,当我检测到一个维度时,逗号可能会错误地识别小数,但我希望小数分隔符是一个点(1,99-1.99)

最新更新