我正在macOS终端上试用xpdf(pdftotext(。我使用一种语言包(日语(。如果我这样调用可执行文件(从lib目录(,一切都很好:
lib kelly$ ./p2t -enc UTF-8 jp.pdf
和我的数据结构
files/lib/pdftotext
files/lib/xpdfrc
files/lib/jp.pdf #file to convert
files/options/Enc/jp/ # Here I have the language package files
以及以下经过编辑的xpdfrc配置文件:
#----- begin Japanese support package (2011-sep-02)
cidToUnicode Adobe-Japan1 ../options/Enc/jp/Adobe-Japan1.cidToUnicode
unicodeMap ISO-2022-JP ../options/Enc/jp/ISO-2022-JP.unicodeMap
unicodeMap EUC-JP ../options/Enc/jp/EUC-JP.unicodeMap
unicodeMap Shift-JIS ../options/Enc/jp/Shift-JIS.unicodeMap
cMapDir Adobe-Japan1 ../options/Enc/jp/CMap
toUnicodeDir ../options/Enc/jp/CMap
#----- end Japanese support package
我遇到的问题是从不同的目录调用"pdftoext",例如从"files"调用。在这种情况下,将看不到配置文件所指向的文件。
files kelly$ ./lib/p2t -enc UTF-8 ./lib/jp.pdf
我得到以下错误:
Syntax Error: Unknown character collection 'Adobe-Japan1'
生成的文件是垃圾文件。
您知道如何更改配置文件吗?
我能够解决类似的问题。我安装了带有酿造桶的pdftotext。
安装是使用以下命令完成的
$ brew cask install pdftotext
$ pdftotext -v
pdftotext version 3.03
Copyright 1996-2011 Glyph & Cog, LLC
并将xpdfrc/语言支持包放在下面的目录中。
ls /usr/local/etc/xpdfrc
/usr/local/etc/xpdfrc
我从这里下载了日语包。https://www.xpdfreader.com/download.html
$ tree /usr/local/share/xpdf
/usr/local/share/xpdf
└── japanese
├── Adobe-Japan1.cidToUnicode
├── CMap
│ ├── 78-EUC-H
│ ├── 78-EUC-V
│ ├── 78-H
│ ├── 78-RKSJ-H
│ ├── 78-RKSJ-V
│ ├── 78-V
│ ├── 78ms-RKSJ-H
│ ├── 78ms-RKSJ-V
│ ├── 83pv-RKSJ-H
│ ├── 90ms-RKSJ-H
│ ├── 90ms-RKSJ-UCS2
│ ├── 90ms-RKSJ-V
│ ├── 90msp-RKSJ-H
│ ├── 90msp-RKSJ-V
│ ├── 90pv-RKSJ-H
│ ├── 90pv-RKSJ-UCS2
│ ├── 90pv-RKSJ-UCS2C
│ ├── 90pv-RKSJ-V
│ ├── Add-H
│ ├── Add-RKSJ-H
│ ├── Add-RKSJ-V
│ ├── Add-V
│ ├── Adobe-Japan1-0
│ ├── Adobe-Japan1-1
│ ├── Adobe-Japan1-2
│ ├── Adobe-Japan1-3
│ ├── Adobe-Japan1-4
│ ├── Adobe-Japan1-5
│ ├── Adobe-Japan1-6
│ ├── Adobe-Japan1-UCS2
│ ├── EUC-H
│ ├── EUC-V
│ ├── Ext-H
│ ├── Ext-RKSJ-H
│ ├── Ext-RKSJ-V
│ ├── Ext-V
│ ├── H
│ ├── Hankaku
│ ├── Hiragana
│ ├── Katakana
│ ├── NWP-H
│ ├── NWP-V
│ ├── RKSJ-H
│ ├── RKSJ-V
│ ├── Roman
│ ├── UniJIS-UCS2-H
│ ├── UniJIS-UCS2-HW-H
│ ├── UniJIS-UCS2-HW-V
│ ├── UniJIS-UCS2-V
│ ├── UniJIS-UTF16-H
│ ├── UniJIS-UTF16-V
│ ├── UniJIS-UTF32-H
│ ├── UniJIS-UTF32-V
│ ├── UniJIS-UTF8-H
│ ├── UniJIS-UTF8-V
│ ├── UniJIS2004-UTF16-H
│ ├── UniJIS2004-UTF16-V
│ ├── UniJIS2004-UTF32-H
│ ├── UniJIS2004-UTF32-V
│ ├── UniJIS2004-UTF8-H
│ ├── UniJIS2004-UTF8-V
│ ├── UniJISPro-UCS2-HW-V
│ ├── UniJISPro-UCS2-V
│ ├── UniJISPro-UTF8-V
│ ├── UniJISX0213-UTF32-H
│ ├── UniJISX0213-UTF32-V
│ ├── UniJISX02132004-UTF32-H
│ ├── UniJISX02132004-UTF32-V
│ ├── V
│ └── WP-Symbol
├── EUC-JP.unicodeMap
├── ISO-2022-JP.unicodeMap
├── README
├── Shift-JIS.unicodeMap
└── add-to-xpdfrc
2 directories, 76 files
xpdfrc的内容如下
$ cat /usr/local/etc/xpdfrc
cidToUnicode Adobe-Japan1 /usr/local/share/xpdf/japanese/Adobe-Japan1.cidToUnicode
unicodeMap ISO-2022-JP /usr/local/share/xpdf/japanese/ISO-2022-JP.unicodeMap
unicodeMap EUC-JP /usr/local/share/xpdf/japanese/EUC-JP.unicodeMap
unicodeMap Shift-JIS /usr/local/share/xpdf/japanese/Shift-JIS.unicodeMap
cMapDir Adobe-Japan1 /usr/local/share/xpdf/japanese/CMap
toUnicodeDir /usr/local/share/xpdf/japanese/CMap