我需要一个实用程序将TIFF文件批量转换为可索引的PDF。该软件需要在 Linux 上运行,并且必须从命令行工作。该软件不需要是开源的。我已经尝试使用tesseract和hocr2pdf进行转换,但是它们生成带有乱码文本的PDF(注意:只有在PDF中"选择所有"文本时,文本才会乱码)。我找到了其他实用程序,但它们只能在 Windows 下运行或无法从命令行工作。提前谢谢。
Mogrify应该能够帮助你:
http://linux.die.net/man/1/mogrify
您要查找的内容:
http://ocr4linux.com/en:start
适用于Linux的命令行OCR工具基于ABBYY市场上最好的OCR。(免责声明:我在ABBYY工作)
这个答案是倾斜的,只是部分的。 如果它不适用于您,请忽略。
可能有这样的软件,但我不熟悉它。 如果你的需求足够强烈,以至于你需要写2000行左右的代码来满足它,那么有面向Linux的Libpoppler,它为你提供了一个界面来编写一个程序来制作自己的,自定义PDF,完全按照你想要的方式。 不幸的是,Libpoppler 虽然很有价值,但编码起来并不是特别愉快;而且,不幸的是,如果您对其进行编码,那么您可能会发现自己正在阅读长篇PDF标准。
如果您确实编写了此类软件,则可以考虑将其作为开源发布。
祝你好运。
在尝试了几个工具(包括Abbyy)之后,我决定:Vividata。他们有不错的价格,在Linux下运行,并且没有每年的页面限制。
我写了一个使用 Tesseract 3 或 Abbyy OCR 11 的 bash 脚本。它可以批量转换或在目录监视器模式下运行。
在您的情况下
pmocr.sh --batch --target=PDF /path/to/tiff/files
请参阅此处的脚本:https://github.com/deajan/pmOCR