Ephesoft 在学习从 PDF 转换的 tiff 文档时出错

我在AWS实例上的Windows Server 2003上使用Ephesoft社区版。我在阅读某些 tiff 文档时遇到 ephesoft 问题。我有大约 100 种不同的 tiff 文档，其中大约 70% 有效。这些tiff文档最初是PDF的PDF，我们使用最新版本的ghostscript进行了转换，并使用ephesoft的imagemagick进行了清理。我们将以下命令与代笔一起使用

-dNOPAUSE -r300 -sDEVICE=tiffg4 -dBATCH

使用ImageMagick，我们正在执行以下命令

-压缩组4

当学习其中一个不起作用的 tiff 文件时，我们在日志文件中收到以下错误

投递箱链接到堆栈跟踪

这是我们试图让ephesoft学习的Tiff文档之一

。

投递箱链接到 Tiff 文档

我可以用ghostscript，imagemagick或任何其他软件来解决这个问题吗？或者我需要以某种方式修改ephesoft？

我通过做更多的研究找到了解决方案。

问题不涉及Ghostscript或Imagmagick。它涉及Tesseract和创建HOCR文件。当 Tesseract 创建 hocr 文件时，它将德克萨斯州的值解析为 Te>。Ephesoft 的社区版无法像这样处理特殊的 xml 字符，因此会抛出错误。

解决方案是设置一个 Tesseract 属性，将<>符号列入黑名单，以便 Tesseract 不会包含这些符号或解析为这些符号。我的 PDF 现在似乎工作正常，我能够处理它们。

相关内容

最新更新

热门标签：