提取PDF文档的特定部分

我有多个(30)PDF文件，每个包含48-96页。所有页面的布局都是一样的，只是有其他内容(数字，图表)。

背景:这些页面是光纤电缆测量的PDF报告，我必须根据电缆的衰减对它们进行排序。由于保密问题，我很遗憾不能给出一个示例文件。

为了验证这些报告，我们正在做一些控制样本，这就是为什么我需要对报告进行排序。现在的问题是:如何将所有pdf文件中所有页面的特定部分导出为我可以排序的格式?

如前所述，

是非常具体的值在页面上的位置。它也是已经"解析"的内容，所以它在PDF文件中是"文本"，所以它不被扫描，不需要OCR。

任何帮助都是感激的。我目前不知道如何解决这个问题，它可能是一些工具，做类似的事情，或编程方法来解决这个问题。

正如您在对原始问题的评论中指出的那样，您准备编写一个解决方案。我建议使用Java和iText PDF库。它使您能够从文档中提取文本，只要文本实际上是可提取的(实际上您可以将字形放入PDF中，但将从字形到字符的映射去掉)。

您可以在ittext in Action - 2nd Edition第15章的ExtractPageContent*示例中找到使用ittext提取PDF文本的示例代码。在您的案例中，ExtractPageContentArea尤其重要。

从本质上讲，你只需要拿这个样本并概括它，从页面的多个区域提取文本

相关内容