如何从在线PDF中提取照片和文本

我知道已经有PDFbox和iText，但他们没有视觉内容提取的能力，需要离线处理pdf。我想要一种方法来在线进行一些文本和视觉内容提取。不想下载PDF文件然后做一些事情。 Java语言有什么样的API或库？

编辑对于那些觉得不清楚的人，我再解释一下：

想象一下，当使用任何HTML parser时，您可以在线解析页面，制作DOM或SAX树并浏览它们的元素，然后根据这些树中节点的内容提取照片和文本。至少，对于照片，您可以获得它们相应的 HTML 标签和文本，同样，您可以获得实际文本。现在，我想知道 PDF 是否有类似的事情？浏览文本和图像而无需下载

Gnostice PDFOne（用于Java）有一个getPageElements（）方法，可以解析PDF页面的文本和图像元素。PDF 中的文本不像 HTML 或 XML 文档那样在 DOM 中。文本只是出现在各种 x-y 坐标中，并且神奇地看起来格式良好。但是，PDFOne 有一些 PDF 文本提取方法可以将这些文本元素重建为用户友好的句子。披露：我在制作这个图书馆的公司工作。

PDFImageStream可以做到这一点。有一个免费版本只有一个限制：它只能在单线程应用程序中使用。

相关内容

最新更新

热门标签：