命令行软件，用于将TIFF批量转换为可索引的PDF

我需要一个实用程序将TIFF文件批量转换为可索引的PDF。该软件需要在 Linux 上运行，并且必须从命令行工作。该软件不需要是开源的。我已经尝试使用tesseract和hocr2pdf进行转换，但是它们生成带有乱码文本的PDF（注意：只有在PDF中"选择所有"文本时，文本才会乱码）。我找到了其他实用程序，但它们只能在 Windows 下运行或无法从命令行工作。提前谢谢。

Mogrify应该能够帮助你：

http://linux.die.net/man/1/mogrify

这正是

您要查找的内容：

http://ocr4linux.com/en:start

适用于Linux的命令行OCR工具基于ABBYY市场上最好的OCR。（免责声明：我在ABBYY工作）

这个答案是倾斜的，只是部分的。如果它不适用于您，请忽略。

可能有这样的软件，但我不熟悉它。如果你的需求足够强烈，以至于你需要写2000行左右的代码来满足它，那么有面向Linux的Libpoppler，它为你提供了一个界面来编写一个程序来制作自己的，自定义PDF，完全按照你想要的方式。不幸的是，Libpoppler 虽然很有价值，但编码起来并不是特别愉快;而且，不幸的是，如果您对其进行编码，那么您可能会发现自己正在阅读长篇PDF标准。

如果您确实编写了此类软件，则可以考虑将其作为开源发布。

祝你好运。

在尝试了几个工具（包括Abbyy）之后，我决定：Vividata。他们有不错的价格，在Linux下运行，并且没有每年的页面限制。

我写了一个使用 Tesseract 3 或 Abbyy OCR 11 的 bash 脚本。它可以批量转换或在目录监视器模式下运行。

在您的情况下

pmocr.sh --batch --target=PDF /path/to/tiff/files

请参阅此处的脚本：https://github.com/deajan/pmOCR

相关内容

最新更新

热门标签：