从PDF文件中提取表格是否有一致的方法?什么工具吗?
我已经做了什么:
- 我已经试用了
pdftotext
工具。它有一个转换为HTML布局的选项。
这是什么问题:
- 表信息不保留在HTML输出
- 我期望
<table>
标签,但所有的<p>
标签。
PDF文档中是否有任何标记来指示表结构?像<table>
, <tr>
和<td>
在HTML?
如果"是",任何指向此的指针都将有所帮助。如果"否",一个关于这个事实的明确信息也很有帮助。
但是,您可以使用pdftotext -layout input.pdf output.txt
。它在文本文件中打印pdf并包含原始布局。没有标签,但是使用一些漂亮的脚本(perl/php/其他),您可以从表中恢复数据。
如果你在一个页面上工作,你可能最好手动完成,但如果你(像我)必须在100或1000的页面上工作,这是你能得到的最好的。我已经找了很长时间,找不到比pdftotext更好的pdf-2-text工具了。
输出中有一点不一致,并不是所有类似的pdf表都会产生类似的txt输出,但这使您的脚本编写更有趣。
如果PDF文档缺少将内容标记为表、行、单元格等(称为标记)的信息,则没有一致的方法从PDF文档中提取表。大多数情况下,PDF文档不包含这些标记。这些标签通常用于使PDF易于访问,例如可以大声朗读。这些标签不是PDF有效所必需的。