我在AWS实例上的Windows Server 2003上使用Ephesoft社区版。我在阅读某些 tiff 文档时遇到 ephesoft 问题。我有大约 100 种不同的 tiff 文档,其中大约 70% 有效。这些tiff文档最初是PDF的PDF,我们使用最新版本的ghostscript进行了转换,并使用ephesoft的imagemagick进行了清理。我们将以下命令与代笔一起使用
-dNOPAUSE -r300 -sDEVICE=tiffg4 -dBATCH
使用ImageMagick,我们正在执行以下命令
-压缩组4
当学习其中一个不起作用的 tiff 文件时,我们在日志文件中收到以下错误
投递箱链接到堆栈跟踪
这是我们试图让ephesoft学习的Tiff文档之一
。投递箱链接到 Tiff 文档
我可以用ghostscript,imagemagick或任何其他软件来解决这个问题吗?或者我需要以某种方式修改ephesoft?
我通过做更多的研究找到了解决方案。
问题不涉及Ghostscript或Imagmagick。它涉及Tesseract和创建HOCR文件。当 Tesseract 创建 hocr 文件时,它将德克萨斯州的值解析为 Te>。Ephesoft 的社区版无法像这样处理特殊的 xml 字符,因此会抛出错误。
解决方案是设置一个 Tesseract 属性,将<>符号列入黑名单,以便 Tesseract 不会包含这些符号或解析为这些符号。我的 PDF 现在似乎工作正常,我能够处理它们。