OCR tesseract:针对特殊字体类型的训练数据创建问题(使用Jtessboxeditor)

请求您的协助。感谢

我还需要这3个字符——尽管现在回答这个问题可能为时已晚。

可能在所有情况下都没有太大帮助，但Norwegian.traineddata文件确实包含了Å(Phi)字符，这个经过训练的数据文件帮助我处理了这个字符。

°(度)字符可能有点棘手，因为它通常不会被识别，因为它太小了，如果你能看到字符的内部是清晰的，Tesseract可能能够破译。

现在最困难的是±。我还没有破解这个，这可能是一个非常粗糙的方法；但我在想，正负总是只被认为是加号。

我可以利用这个优势。

我可以使用Tesseract的引擎，它公开PageSegMode.SingleChar来检测每个单独的字符，并使用Tesseact的GetSegmentedRegions()获取每个字符所在的位图/图像区域-您可以稍后将所有字符重新组合成一个字符串。

然后我可以运行ImageMagick来计算/比较找到的加号与加号或减号图像的相似程度。最相似的那个会告诉你哪个角色。

使用我的方法，我仍然需要解析已识别的文本，并将其转换为可用的内容。例如，可以检测到的字符为小写，但我希望它为大写。或者度数被检测为撇号，但预期的结果是度数。另一种转换是，当我检测到一个维度时，逗号可能会错误地识别小数，但我希望小数分隔符是一个点(1,99-1.99)

相关内容