pdfbox可以提取矢量图像



据我所知,

1. .eps format images are vector images.
2. When we draw something in word (like a flowchart) that is stored 
as a vector image.  

我几乎对第一个有把握,对第二个没有把握。如果我错了,请纠正我。

假设这两件事,当一个latex文件(插入.eps图像)或一个word文件(包含矢量图像)转换为pdf时,图像会转换为光栅图像吗?

此外,我认为PDFBox/xpdf只能从pdf中提取光栅图像(因为它们被嵌入为XObjects),而不能提取矢量图像。这种理解正确吗?stackoverflow中的这个问题是相关的,但尚未得到回答。

您的第1点不正确,eps文件是PostScript程序,它们可能包含矢量信息、文本或图像数据,或以上所有内容。

点2在PDF中没有"矢量图像",图像意味着位图,因此不能是矢量。

如果将PostScript程序转换为PDF文件,则结果完全取决于所使用的转换程序。一般情况下,矢量将保留为矢量,文本将保留为文本。但是,应用程序完全有可能呈现整个PostScript程序,并将结果作为图像插入PDF中。

因此,你的第一个问题("图像是否转换为光栅图像")的答案是"可能,但可能不是"。

恐怕我不知道PDFBox/xpdf的功能,但由于矢量集合可能不会以任何原子方式排列为"图像"(它们可以作为Form XObjects或Patterns),因此没有任何明显的方法知道何时停止提取。你会以什么格式存储结果?

相关内容

  • 没有找到相关文章

最新更新