从PDF中提取表格数据



从PDF文件中提取表格是否有一致的方法?什么工具吗?

我已经做了什么:

  • 我已经试用了pdftotext工具。它有一个转换为HTML布局的选项。

这是什么问题:

  • 表信息不保留在HTML输出
  • 我期望<table>标签,但所有的<p>标签。

PDF文档中是否有任何标记来指示表结构?像<table>, <tr><td>在HTML?

如果"是",任何指向此的指针都将有所帮助。如果"否",一个关于这个事实的明确信息也很有帮助。

但是,您可以使用pdftotext -layout input.pdf output.txt。它在文本文件中打印pdf并包含原始布局。没有标签,但是使用一些漂亮的脚本(perl/php/其他),您可以从表中恢复数据。

如果你在一个页面上工作,你可能最好手动完成,但如果你(像我)必须在100或1000的页面上工作,这是你能得到的最好的。我已经找了很长时间,找不到比pdftotext更好的pdf-2-text工具了。

输出中有一点不一致,并不是所有类似的pdf表都会产生类似的txt输出,但这使您的脚本编写更有趣。

如果PDF文档缺少将内容标记为表、行、单元格等(称为标记)的信息,则没有一致的方法从PDF文档中提取表。大多数情况下,PDF文档不包含这些标记。这些标签通常用于使PDF易于访问,例如可以大声朗读。这些标签不是PDF有效所必需的。

相关内容

  • 没有找到相关文章

最新更新