分析pdf文件的格式，提取文本和图像

我需要从这本杂志中提取"文章"，其中既有文本也有图像。图像内容必须分开放置，文本提取(尽可能)并分开放置。

我该怎么做呢?是否已经有这样的商业服务/api ?程序/服务的输入将只是文件。

输入示例:http://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf

(实际文件将是一个普通的pdf文件，而不是一个安全的文件)

doctic . PDF库可以为您从PDF文件中提取图像和文本。

这里有几个示例用于您的任务:

提取的图像可以保存为JPEG和tiff。您可以从每一页或整个文档中提取文本。你可以用它们的坐标提取文本块。

免责声明:我为Bit Miracle工作，库的供应商。

试试这个:

http://asp.syncfusion.com/sfaspnetsamplebrowser/9.1.0.20/Web/Pdf.Web/samples/4.0/Importing/TextExtraction/CS/Default.aspx?args=7

相同的组件也具有图像提取功能。

你可以试试!!

如果您可以负担得起商业选项，Amyuni PDF Creator将允许您枚举PDF文件中的所有组件(文本，图像等)，您将能够将它们提取为独立对象，并可以使用它们创建新的PDF文件

您可以使用Aspose.Pdf.Kit分别从PDF文件中提取文本和图像。这个API非常简单。您还可以在Aspose网站上找到示例，教程和支持。

注:我是Aspose的开发者布道师

相关内容