是否有一种方法可以自动从许多PDF文件中提取特定的数据并将其添加到Excel表中

定期浏览pdf文件列表，搜索特定数据，然后将它们添加到Excel表中以进行以后的审查。由于PDF文件的数量约为每月50个，因此手动进行操作既有时间又令人沮丧。

可以通过Python或任何其他脚本语言在Windows中自动化该过程？我需要将所有PDF文件放在文件夹中，并运行将生成带有所有数据的Excel表的脚本。我使用的PDF文件是表格的，并且具有相似的结构。

是。和不。也许。

这里的问题不是从PDF文档中提取。提取的东西几乎总是可能的，并且有大量的工具可从PDF文档中提取内容。文字，图像，无论您需要什么。

主要问题（以及"否"或"也许"的原因）是PDF通常不是结构化文件格式。它不在乎列，段落，表，句子甚至单词。在一般情况下，它仅关心特定位置的页面上的字符。

这意味着在一般情况下，您不能查询PDF文档，并为每个段落或第五段中的第三句询问。您可以要求库将所有文本或所有文本都放在特定位置。然后，您必须希望图书馆能够以清晰的格式提取所需的文本。因为甚至不必这样的情况，您可以从PDF文件中复制和粘贴或以其他方式可理解的字符。许多PDF文件甚至不包含足够的信息。

所以...如果您有某种类型的文档，并且可以通过某种提取引擎来预测其行为可以预见，那么是的，您可以从PDF文件中提取信息。

如果您收到的PDF文件一直不同，或者页面上的布局每次都与答案完全不同，那么您可能无法可靠地提取所需的信息。

作为旁注：
某些类型的PDF文档比其他文档更容易处理，因此，如果您幸运的话，可能会使您的生活更轻松。两个例子：

许多PDF文件实际上实际上包含文本信息，以一种可以以清晰的方式提取的文本信息。甚至需要以这种方式创建遵循某些标准的PDF文件（例如PDF/A-1A，PDF/A-2A或PDF/A-2U等）。
某些PDF文件被"标记"，这意味着它们包含其他结构信息，使您可以以更轻松，更有意义的方式提取信息。实际上，这种结构将确定段落，图像，表等，如果标记以一种很好的方式完成，则可以使内容提取的工作更加容易。

您可以使用python中的pdf2text2从pdf中提取数据。

另外，您可以使用XPDF Suite的一部分的pdftotext

相关内容