我想使用基于XPDF的PDFTOTEXT命令行工具查看PDF文件,希望获得UTF-8输出。我在StackOverflow上看到其他人得到了它——问题4039930、3809761和13618330表明其他人已经能够使用它
当我使用选项-enc utf-8
时,会显示以下消息:
Syntax Error: Couldn't find unicodeMap file for the 'utf-8' encoding
Config Error: Couldn't get text encoding
我看过一些文档,其中UTF-8编码是"预定义的",但我找不到我需要指向的文件
任何建议都将不胜感激。
编辑:我在Windows上。
您应该使用UTF-8
而不是utf-8
。参见pdftotext
帮助信息:
$ pdftotext -listenc
Available encodings are:
UCS-2
ASCII7
Latin1
UTF-8
ZapfDingbats
Symbol
证明代码:
$ pdftotext -eol unix -nopgbrk -layout -enc utf-8 file.pdf
Syntax Error: Couldn't find unicodeMap file for the 'utf-8' encoding
Command Line Error: Couldn't get text encoding
$ pdftotext -eol unix -nopgbrk -layout -enc UTF-8 file.pdf
$ echo $?
0