其中是以UTF-8格式输出PDFTOTEXT所需的文件



我想使用基于XPDF的PDFTOTEXT命令行工具查看PDF文件,希望获得UTF-8输出。我在StackOverflow上看到其他人得到了它——问题4039930、3809761和13618330表明其他人已经能够使用它

当我使用选项-enc utf-8时,会显示以下消息:

Syntax Error: Couldn't find unicodeMap file for the 'utf-8' encoding
Config Error: Couldn't get text encoding

我看过一些文档,其中UTF-8编码是"预定义的",但我找不到我需要指向的文件

任何建议都将不胜感激。

编辑:我在Windows上。

您应该使用UTF-8而不是utf-8。参见pdftotext帮助信息:

$ pdftotext -listenc
Available encodings are:
UCS-2
ASCII7
Latin1
UTF-8
ZapfDingbats
Symbol

证明代码:

$ pdftotext -eol unix -nopgbrk -layout -enc utf-8 file.pdf
Syntax Error: Couldn't find unicodeMap file for the 'utf-8' encoding
Command Line Error: Couldn't get text encoding
$ pdftotext -eol unix -nopgbrk -layout -enc UTF-8 file.pdf
$ echo $?
0

相关内容

  • 没有找到相关文章

最新更新