分析pdf文件的格式,提取文本和图像



我需要从这本杂志中提取"文章",其中既有文本也有图像。图像内容必须分开放置,文本提取(尽可能)并分开放置。

我该怎么做呢?是否已经有这样的商业服务/api ?程序/服务的输入将只是文件。

输入示例:http://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf

(实际文件将是一个普通的pdf文件,而不是一个安全的文件)

doctic . PDF库可以为您从PDF文件中提取图像和文本。

这里有几个示例用于您的任务:

  • 从pdf文件中提取文本
  • 从PDF中提取图像

提取的图像可以保存为JPEG和tiff。您可以从每一页或整个文档中提取文本。你可以用它们的坐标提取文本块。

免责声明:我为Bit Miracle工作,库的供应商。

试试这个:

http://asp.syncfusion.com/sfaspnetsamplebrowser/9.1.0.20/Web/Pdf.Web/samples/4.0/Importing/TextExtraction/CS/Default.aspx?args=7

相同的组件也具有图像提取功能。

你可以试试!!

如果您可以负担得起商业选项,Amyuni PDF Creator将允许您枚举PDF文件中的所有组件(文本,图像等),您将能够将它们提取为独立对象,并可以使用它们创建新的PDF文件

您可以使用Aspose.Pdf.Kit分别从PDF文件中提取文本和图像。这个API非常简单。您还可以在Aspose网站上找到示例,教程和支持。

注:我是Aspose的开发者布道师

最新更新