使用 LibreOffice 将.docx导出为 PDF 时出现错误的 Unicode 映射



使用 LibreOffice 将.docx文件转换为 PDF/A-1a 文件时,创建的文件不符合 PDF/A-1a 标准。

当我尝试在 Adobe Acrobat 中使用印前检查验证文件时,出现以下错误:

Text cannot be mapped to unicode (154 matches on 2 pages)

当我从 PDF 中复制文本时 Preview.app 所有重音字符都丢失或混乱。

根据我的研究,我知道 LibreOffice 没有为重音字符正确构建/ToUnicode映射,因为这些字符是为多个字形构建的,而 LibreOffice 只是处理第一个字形。参考:无法从 OOo 导出的 PDF 复制文本

有解决方法吗?如何在 Linux 上以编程方式将.docx转换为有效的 PDF/A?

有关信息,以下是我用于转换文件的命令:

unoconv -f pdf -eSelectPdfVersion=1 source-file.docx

另一个命令没有按预期提供符合 PDF/A 的文件,但它具有相同的 Unicode 映射问题:

libreoffice --headless --convert-to pdf source-file.docx

我正在使用的 LibreOffice 5.2.3.3 存在该问题。LibreOffice 5.1.4.2 和 5.1.6.2 不存在此问题。

因此,降级到5.1.6.2可以解决我的问题。

我在现有的错误报告中添加了更多信息。

最新更新