从PDF文件中提取稀疏图

我一直致力于从文本文件中提取图像。它适用于密集的图像，比如在这个关于猫的pdf中。

然而，使用PyMuPDF Pillow等库，我无法提取更稀疏的图像，如本pdf中的线性回归图。

我尝试过一些表提取工具，如"tabula"、"camelot"，但这些工具最适合在表中组织数据。

KJ上面的评论帮助我认识到PDF在某些方面就像一个烤好的蛋糕，打开PDF有点像在蛋糕烤好后试图分离出单独的成分。

正如评论所暗示的那样，有很多PDF工具，比如https://github.com/pymupdf/PyMuPDF-Utilities它允许你(在一些PDF上(解析出PDF的元素，然而稀疏图似乎特别困难，因为其中一些图是使用乳胶构建的，或者以某种方式提取图像不容易。KJ还建议使用mupdf.com/docs/manual-mutool-trace.html并通过PDF进行追溯，以展开大量SVG数据[尽管也承认这将是一项艰巨的任务]。

我和我的同事确实有一个想法，我们可以从PDF中删除所有的图像和文本，然后分析剩下的内容，开始识别图形的位置，然后从那里向后收集它们，但我现在已经改变了主意，尝试一些替代问题(在可能回到这个问题之前(。

相关内容

最新更新

热门标签：