Ghostscript pdf转换使连字无法复制和粘贴

我有一个pdf(用usepackage[a-2b]{pdfx}乳胶创建(，我可以在其中正确复制和粘贴连字，即"fi"在我的文本编辑器中粘贴为"fi"。pdf 非常大，所以我正在尝试使用此 ghostscript 命令减小它的大小：

gs -dPDFA-2 -dBATCH -dNOPAUSE -sPDFACompatibilityPolicy=1 -sDEVICE=pdfwrite 
-dPDFSETTINGS=/printer -sProcessColorModel=DeviceRGB 
-sColorConversionStrategy=UseDeviceIndependentColor 
-dColorImageDownsampleType=/Bicubic -dAutoRotatePages=/None 
-dCompatibilityLevel=1.5 -dEmbedAllFonts=true -dFastWebView=true 
-sOutputFile=main_new.pdf main.pdf

虽然这会产生一个漂亮的小pdf，但现在当我复制一个带有"fi"的单词时，我(经常(得到"ő"。

由于正确的字符以某种方式编码在原始 pdf 中，我是否可以给 ghostscript 一些参数，以便它简单地将此信息保留在转换后的 pdf 中？

我在 macOS 9.27 上使用 ghostscript 10.14。

如果没有看到您的原始文件，以便我可以看到文本的编码方式，就不可能是确定的。当然不可能让pdfwrite设备"保存信息";有关说明，请参阅此处。

如果您的原始PDF文件具有ToUnicode CMap，则pdfwrite设备应使用该文件在输出文件中生成新的ToUnicode CMap，保持剪切和粘贴/搜索。如果没有，则转换过程将破坏编码。通过将SubsetFonts 设置为 false，您可以获得结果的改进，但这只是一个猜测，没有看到示例。

我的猜测是，您的原始文件没有ToUnicode CMap，这意味着它基本上只能靠运气工作。

相关内容

最新更新

热门标签：