用Python替换PDF文档中的图像

我们生成PDF文档，并将RGB图像存储在CMS中。

作为PDF处理的一部分，我们有时需要转换RGB图像转换为CMYK格式(用于印刷产品)。

用Python将图像从RGB转换为CMYK似乎是可行的使用LittleCMS和PyLittleCMS绑定(加上RGB输入和CMYK输出设备的ICC颜色配置文件)。

然而，是否有一些基于python的选项来迭代PDF中的图像，提取图像数据并将其替换为处理过的CMYK变体?

我认为没有任何免费的Python工具可以完全满足您的需求。以下是一些选项:

PoDoFo没有成熟的Python绑定，但可以读写PDF，支持PDF图像和彩色空间。

PDFMiner是一个纯python PDF解析器，但它不做太多的图像。这是一个开始，但可能需要相当多的工作来做你想做的。

ReportLab的商业版本可以做你想做的PageCatcher;我已经好几年没用过了，但你可以研究一下。(免费的ReportLab只写pdf，不读pdf)

相关内容