我需要从这本杂志中提取"文章",其中既有文本也有图像。图像内容必须分开放置,文本提取(尽可能)并分开放置。
我该怎么做呢?是否已经有这样的商业服务/api ?程序/服务的输入将只是文件。
输入示例:http://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf
(实际文件将是一个普通的pdf文件,而不是一个安全的文件)
doctic . PDF库可以为您从PDF文件中提取图像和文本。
这里有几个示例用于您的任务:
- 从pdf文件中提取文本
- 从PDF中提取图像
提取的图像可以保存为JPEG和tiff。您可以从每一页或整个文档中提取文本。你可以用它们的坐标提取文本块。
免责声明:我为Bit Miracle工作,库的供应商。
试试这个:
http://asp.syncfusion.com/sfaspnetsamplebrowser/9.1.0.20/Web/Pdf.Web/samples/4.0/Importing/TextExtraction/CS/Default.aspx?args=7相同的组件也具有图像提取功能。
你可以试试!!
如果您可以负担得起商业选项,Amyuni PDF Creator将允许您枚举PDF文件中的所有组件(文本,图像等),您将能够将它们提取为独立对象,并可以使用它们创建新的PDF文件
您可以使用Aspose.Pdf.Kit分别从PDF文件中提取文本和图像。这个API非常简单。您还可以在Aspose网站上找到示例,教程和支持。
注:我是Aspose的开发者布道师