Ghostscript pdf转换使连字无法复制和粘贴



我有一个pdf(用usepackage[a-2b]{pdfx}乳胶创建(,我可以在其中正确复制和粘贴连字,即"fi"在我的文本编辑器中粘贴为"fi"。pdf 非常大,所以我正在尝试使用此 ghostscript 命令减小它的大小:

gs -dPDFA-2 -dBATCH -dNOPAUSE -sPDFACompatibilityPolicy=1 -sDEVICE=pdfwrite 
-dPDFSETTINGS=/printer -sProcessColorModel=DeviceRGB 
-sColorConversionStrategy=UseDeviceIndependentColor 
-dColorImageDownsampleType=/Bicubic -dAutoRotatePages=/None 
-dCompatibilityLevel=1.5 -dEmbedAllFonts=true -dFastWebView=true 
-sOutputFile=main_new.pdf main.pdf

虽然这会产生一个漂亮的小pdf,但现在当我复制一个带有"fi"的单词时,我(经常(得到"ő"。

由于正确的字符以某种方式编码在原始 pdf 中,我是否可以给 ghostscript 一些参数,以便它简单地将此信息保留在转换后的 pdf 中?

我在 macOS 9.27 上使用 ghostscript 10.14。

如果没有看到您的原始文件,以便我可以看到文本的编码方式,就不可能是确定的。当然不可能让pdfwrite设备"保存信息";有关说明,请参阅此处。

如果您的原始PDF文件具有ToUnicode CMap,则pdfwrite设备应使用该文件在输出文件中生成新的ToUnicode CMap,保持剪切和粘贴/搜索。如果没有,则转换过程将破坏编码。通过将SubsetFonts 设置为 false,您可以获得结果的改进,但这只是一个猜测,没有看到示例。

我的猜测是,您的原始文件没有ToUnicode CMap,这意味着它基本上只能靠运气工作。

最新更新