从PDF文件中提取稀疏图



我一直致力于从文本文件中提取图像。它适用于密集的图像,比如在这个关于猫的pdf中。

然而,使用PyMuPDF Pillow等库,我无法提取更稀疏的图像,如本pdf中的线性回归图。

我尝试过一些表提取工具,如"tabula"、"camelot",但这些工具最适合在表中组织数据。

KJ上面的评论帮助我认识到PDF在某些方面就像一个烤好的蛋糕,打开PDF有点像在蛋糕烤好后试图分离出单独的成分。

正如评论所暗示的那样,有很多PDF工具,比如https://github.com/pymupdf/PyMuPDF-Utilities它允许你(在一些PDF上(解析出PDF的元素,然而稀疏图似乎特别困难,因为其中一些图是使用乳胶构建的,或者以某种方式提取图像不容易。KJ还建议使用mupdf.com/docs/manual-mutool-trace.html并通过PDF进行追溯,以展开大量SVG数据[尽管也承认这将是一项艰巨的任务]。

我和我的同事确实有一个想法,我们可以从PDF中删除所有的图像和文本,然后分析剩下的内容,开始识别图形的位置,然后从那里向后收集它们,但我现在已经改变了主意,尝试一些替代问题(在可能回到这个问题之前(。

最新更新