从许多PDF表单中提取数据

我经常收到大量相同的PDF表单。我想将其中的数据提取到一个文本文件中。我想通过某种脚本来实现这一点。我在UNIX环境中工作。

这可能吗？我在谷歌上搜索了一下，什么也找不到。

PDF中的文本由页面内容流中的文本元素表示。这些流通常被压缩。如果您有时间和资源，您可以使用ISO 32000-1:2008或Adobe PDF 1.7规范来构建自己的PDF解析器。或者，使用第三方应用程序作为中间翻译步骤可能更实用。

有一些实用程序可以解码流并为您提供清晰的文本。一个选项是PDFtk服务器，它将在您的环境中工作。另一种选择是使用Poppler PDF渲染库，该库有一个命令行实用程序"pdftotext"，可用于搜索PDF中的字符串。

相关内容