如何从在线PDF中提取照片和文本



我知道已经有PDFboxiText,但他们没有视觉内容提取的能力,需要离线处理pdf。 我想要一种方法来在线进行一些文本和视觉内容提取。 不想下载PDF文件然后做一些事情。 Java语言有什么样的API或库?

编辑 对于那些觉得不清楚的人,我再解释一下:

想象一下,当使用任何HTML parser时,您可以在线解析页面,制作DOMSAX树并浏览它们的元素,然后根据这些树中节点的内容提取照片和文本。 至少,对于照片,您可以获得它们相应的 HTML 标签和文本, 同样,您可以获得实际文本。现在,我想知道 PDF 是否有类似的事情?浏览文本和图像而无需下载

Gnostice PDFOne(用于Java)有一个getPageElements()方法,可以解析PDF页面的文本和图像元素。PDF 中的文本不像 HTML 或 XML 文档那样在 DOM 中。文本只是出现在各种 x-y 坐标中,并且神奇地看起来格式良好。但是,PDFOne 有一些 PDF 文本提取方法可以将这些文本元素重建为用户友好的句子。披露:我在制作这个图书馆的公司工作。

PDFImageStream可以做到这一点。有一个免费版本只有一个限制:它只能在单线程应用程序中使用。

最新更新