使用OCR识别上标字符

我开始了一个简单的项目，在这个项目中，它必须获得一个包含带上标的文本的图像，然后通过使用OCR（目前我使用的是tesseract），它必须识别上标字符+普通字符。

例如，我们有一个化学方程，比如Cl²，但当我使用tesseract来识别它时，它会给我Cl2（全部在一行中）。

那么，这个问题的解决方案是什么呢？有没有其他OCR API可以读取超文本？

非常好的问题，涉及任何OCR系统的更高级功能。

首先，要确保您没有忽视该功能，即使它可能存在于OCR系统中。请确保不要以纯TXT格式查看结果测试，而是以某种具有富文本功能的查看器查看结果测试。TXT查看器（如Windows上的Notepad）通常不支持上标/下标字符，因此即使OCR为您提供了正确的字符，您的查看器也可以将其转换为显示字符。如果您是以程序方式访问文本结果，则问题较小，因为您应该在直接访问文本时获得正确的下标字符值。请注意，查看器必须支持它才能让你真正看到它。如果你消除了这种可能的后处理转换，并确保OCR没有返回下标，那么它可能不支持它。

就像在这个文本框中一样，在你最初的问题中，你试图给我们一个上标字符的例子，但这个文本框不接受，即使你可以从其他地方复制/粘贴它。

许多OCR会将下标视为任何其他正常字符，如果他们能看到的话。您使用的OCR需要具有实际生成上标/下标的技术能力，其中许多都是这样，但它们往往是商业OCR系统，这并不奇怪。

在回复这封信之前，我做了一个小测试。我生成了一个带有一些上标/下标示例的图像用于测试（当然，EMC2是我想到的第一个示例：）
你可以在这里找到我的测试图像：www.ocr-it.com/documents/superscript_subscript_test_page.tif

并通过OCR-IT OCR Cloud 2.0 API使用所有默认设置处理此图像，但导出为丰富的文本格式，如MS Word.DOC.

你可以在这里找到我的测试图像：www.ocr-it.com/documents/superscript_subscript_test_page_result.doc

另请注意：当您对提取上标/下标字符感兴趣时，请分别注意您的图像质量，而不是使用典型文本。这些字符很小，您需要足够的细节和分辨率来实现下降OCR质量。即使是以300dpi扫描的图像，有时也会因为像素太少而出现微小字符的问题。如果你正在考虑手机和数码相机，那就变得更加重要了。

披露：我的专长是为不同规模的公司实施内部OCR解决方案。我的公司是WiseTREND。如果我能提供任何进一步的帮助，请直接联系我。

相关内容

最新更新

热门标签：