是否有一种方法可以自动从许多PDF文件中提取特定的数据并将其添加到Excel表中



定期浏览pdf文件列表,搜索特定数据,然后将它们添加到Excel表中以进行以后的审查。由于PDF文件的数量约为每月50个,因此手动进行操作既有时间又令人沮丧。

可以通过Python或任何其他脚本语言在Windows中自动化该过程?我需要将所有PDF文件放在文件夹中,并运行将生成带有所有数据的Excel表的脚本。我使用的PDF文件是表格的,并且具有相似的结构。

是。和不。也许。

这里的问题不是从PDF文档中提取。提取的东西几乎总是可能的,并且有大量的工具可从PDF文档中提取内容。文字,图像,无论您需要什么。

主要问题(以及"否"或"也许"的原因)是PDF通常不是结构化文件格式。它不在乎列,段落,表,句子甚至单词。在一般情况下,它仅关心特定位置的页面上的字符。

这意味着在一般情况下,您不能查询PDF文档,并为每个段落或第五段中的第三句询问。您可以要求库将所有文本或所有文本都放在特定位置。然后,您必须希望图书馆能够以清晰的格式提取所需的文本。因为甚至不必这样的情况,您可以从PDF文件中复制和粘贴或以其他方式可理解的字符。许多PDF文件甚至不包含足够的信息。

所以...如果您有某种类型的文档,并且可以通过某种提取引擎来预测其行为可以预见,那么是的,您可以从PDF文件中提取信息。

如果您收到的PDF文件一直不同,或者页面上的布局每次都与答案完全不同,那么您可能无法可靠地提取所需的信息。

作为旁注:
某些类型的PDF文档比其他文档更容易处理,因此,如果您幸运的话,可能会使您的生活更轻松。两个例子:

  1. 许多PDF文件实际上实际上包含文本信息,以一种可以以清晰的方式提取的文本信息。甚至需要以这种方式创建遵循某些标准的PDF文件(例如PDF/A-1A,PDF/A-2A或PDF/A-2U等)。

  2. 某些PDF文件被"标记",这意味着它们包含其他结构信息,使您可以以更轻松,更有意义的方式提取信息。实际上,这种结构将确定段落,图像,表等,如果标记以一种很好的方式完成,则可以使内容提取的工作更加容易。

您可以使用python中的pdf2text2从pdf中提取数据。

另外,您可以使用XPDF Suite的一部分的pdftotext

最新更新