如何:在使用c#进行OCR之前提高PDF的质量



我正在创建一个监视文件夹扫描文件的服务。一旦文件存在,服务就会选择它,并将其转换为可读的PDF。在此过程中,服务还会搜索条形码。在此之后,提取文本和文件,并将其文本存储到我们软件的数据库中。位置基于条形码。

现在,对于OCR我们使用Atalasoft的SDK (http://www.atalasoft.com/)。条形码识别器也包含在这个SDK中。

但是转换后的文本仍然有一些错误。(我用其他ocr程序进行了一些测试,但Atalasoft表现不错。)我正在寻找一些软件(SDK-kit),它可以让我提高PDF的质量,用于OCR目的。

我测试了Kofax VRS Elite (http://www.kofax.com/vrs-virtualrescan/)。我正在寻找类似的东西,但可以使用某种SDK-kit在服务中实现。

有没有人这样做过,或者有过类似的问题?提前感谢!

您可以尝试完全遵循不同的路径:
看看你是否可以配置扫描器直接扫描到PDF,并在飞行中进行OCR。利盟扫描器可以做到这一点。这将创建具有可选择和可搜索文本的PDF。这反过来又可以用PDF阅读库提取。

或者你可以看看http://www.abbyy.com/,看看你是否能得到更好的结果。

如果这些都不是好的选择,你可能需要用系统的方式分解你的问题:
1. 是扫描图像的图像质量问题吗?如果是这样,那么必须先解决这个问题。您的OCR解决方案可能会受到分辨率、对比度和颜色的影响。
2. 是OCR软件吗?拿一份非常清晰的文件,看看OCR软件是否出错。如果是这样,那么你知道你必须找到更好的OCR软件。3.如果您的文档质量很好,并且您的OCR软件在解密清晰的文档方面具有很高的成功率,那么您可能需要查看不起作用的例外情况,并逐个解决这些问题。

如果文档上的涂抹和背景图像是问题的原因,您可能想要研究避免这种情况的方法,或者使用公开API的图像处理软件来清除它。

相关内容

  • 没有找到相关文章

最新更新