使用OCR识别上标字符



我开始了一个简单的项目,在这个项目中,它必须获得一个包含带上标的文本的图像,然后通过使用OCR(目前我使用的是tesseract),它必须识别上标字符+普通字符。

例如,我们有一个化学方程,比如Cl²,但当我使用tesseract来识别它时,它会给我Cl2(全部在一行中)。

那么,这个问题的解决方案是什么呢?有没有其他OCR API可以读取超文本?

非常好的问题,涉及任何OCR系统的更高级功能。

首先,要确保您没有忽视该功能,即使它可能存在于OCR系统中。请确保不要以纯TXT格式查看结果测试,而是以某种具有富文本功能的查看器查看结果测试。TXT查看器(如Windows上的Notepad)通常不支持上标/下标字符,因此即使OCR为您提供了正确的字符,您的查看器也可以将其转换为显示字符。如果您是以程序方式访问文本结果,则问题较小,因为您应该在直接访问文本时获得正确的下标字符值。请注意,查看器必须支持它才能让你真正看到它。如果你消除了这种可能的后处理转换,并确保OCR没有返回下标,那么它可能不支持它。

就像在这个文本框中一样,在你最初的问题中,你试图给我们一个上标字符的例子,但这个文本框不接受,即使你可以从其他地方复制/粘贴它。

许多OCR会将下标视为任何其他正常字符,如果他们能看到的话。您使用的OCR需要具有实际生成上标/下标的技术能力,其中许多都是这样,但它们往往是商业OCR系统,这并不奇怪。

在回复这封信之前,我做了一个小测试。我生成了一个带有一些上标/下标示例的图像用于测试(当然,EMC2是我想到的第一个示例:)
你可以在这里找到我的测试图像:www.ocr-it.com/documents/superscript_subscript_test_page.tif

并通过OCR-IT OCR Cloud 2.0 API使用所有默认设置处理此图像,但导出为丰富的文本格式,如MS Word.DOC.

你可以在这里找到我的测试图像:www.ocr-it.com/documents/superscript_subscript_test_page_result.doc

另请注意:当您对提取上标/下标字符感兴趣时,请分别注意您的图像质量,而不是使用典型文本。这些字符很小,您需要足够的细节和分辨率来实现下降OCR质量。即使是以300dpi扫描的图像,有时也会因为像素太少而出现微小字符的问题。如果你正在考虑手机和数码相机,那就变得更加重要了。

披露:我的专长是为不同规模的公司实施内部OCR解决方案。我的公司是WiseTREND。如果我能提供任何进一步的帮助,请直接联系我。

最新更新