从PDF中提取表格数据

从PDF文件中提取表格是否有一致的方法?什么工具吗?

我已经做了什么:

这是什么问题:

PDF文档中是否有任何标记来指示表结构?像<table>, <tr>和<td>在HTML?

如果"是"，任何指向此的指针都将有所帮助。如果"否"，一个关于这个事实的明确信息也很有帮助。

但是，您可以使用pdftotext -layout input.pdf output.txt。它在文本文件中打印pdf并包含原始布局。没有标签，但是使用一些漂亮的脚本(perl/php/其他)，您可以从表中恢复数据。

如果你在一个页面上工作，你可能最好手动完成，但如果你(像我)必须在100或1000的页面上工作，这是你能得到的最好的。我已经找了很长时间，找不到比pdftotext更好的pdf-2-text工具了。

输出中有一点不一致，并不是所有类似的pdf表都会产生类似的txt输出，但这使您的脚本编写更有趣。

如果PDF文档缺少将内容标记为表、行、单元格等(称为标记)的信息，则没有一致的方法从PDF文档中提取表。大多数情况下，PDF文档不包含这些标记。这些标签通常用于使PDF易于访问，例如可以大声朗读。这些标签不是PDF有效所必需的。

相关内容