xpdf(pdftotext)和来自不同目录的语言包调用



我正在macOS终端上试用xpdf(pdftotext(。我使用一种语言包(日语(。如果我这样调用可执行文件(从lib目录(,一切都很好:

lib kelly$ ./p2t -enc UTF-8 jp.pdf 

和我的数据结构

files/lib/pdftotext
files/lib/xpdfrc
files/lib/jp.pdf #file to convert
files/options/Enc/jp/ # Here I have the language package files

以及以下经过编辑的xpdfrc配置文件:

#----- begin Japanese support package (2011-sep-02)
cidToUnicode    Adobe-Japan1    ../options/Enc/jp/Adobe-Japan1.cidToUnicode
unicodeMap  ISO-2022-JP ../options/Enc/jp/ISO-2022-JP.unicodeMap
unicodeMap  EUC-JP      ../options/Enc/jp/EUC-JP.unicodeMap
unicodeMap  Shift-JIS   ../options/Enc/jp/Shift-JIS.unicodeMap
cMapDir     Adobe-Japan1    ../options/Enc/jp/CMap
toUnicodeDir            ../options/Enc/jp/CMap
#----- end Japanese support package

我遇到的问题是从不同的目录调用"pdftoext",例如从"files"调用。在这种情况下,将看不到配置文件所指向的文件。

files kelly$ ./lib/p2t -enc UTF-8 ./lib/jp.pdf 

我得到以下错误:

Syntax Error: Unknown character collection 'Adobe-Japan1'

生成的文件是垃圾文件。

您知道如何更改配置文件吗?

我能够解决类似的问题。我安装了带有酿造桶的pdftotext。

安装是使用以下命令完成的

$ brew cask install pdftotext
$ pdftotext -v
pdftotext version 3.03
Copyright 1996-2011 Glyph & Cog, LLC

并将xpdfrc/语言支持包放在下面的目录中。

ls /usr/local/etc/xpdfrc
/usr/local/etc/xpdfrc

我从这里下载了日语包。https://www.xpdfreader.com/download.html

$ tree /usr/local/share/xpdf
/usr/local/share/xpdf
└── japanese
├── Adobe-Japan1.cidToUnicode
├── CMap
│   ├── 78-EUC-H
│   ├── 78-EUC-V
│   ├── 78-H
│   ├── 78-RKSJ-H
│   ├── 78-RKSJ-V
│   ├── 78-V
│   ├── 78ms-RKSJ-H
│   ├── 78ms-RKSJ-V
│   ├── 83pv-RKSJ-H
│   ├── 90ms-RKSJ-H
│   ├── 90ms-RKSJ-UCS2
│   ├── 90ms-RKSJ-V
│   ├── 90msp-RKSJ-H
│   ├── 90msp-RKSJ-V
│   ├── 90pv-RKSJ-H
│   ├── 90pv-RKSJ-UCS2
│   ├── 90pv-RKSJ-UCS2C
│   ├── 90pv-RKSJ-V
│   ├── Add-H
│   ├── Add-RKSJ-H
│   ├── Add-RKSJ-V
│   ├── Add-V
│   ├── Adobe-Japan1-0
│   ├── Adobe-Japan1-1
│   ├── Adobe-Japan1-2
│   ├── Adobe-Japan1-3
│   ├── Adobe-Japan1-4
│   ├── Adobe-Japan1-5
│   ├── Adobe-Japan1-6
│   ├── Adobe-Japan1-UCS2
│   ├── EUC-H
│   ├── EUC-V
│   ├── Ext-H
│   ├── Ext-RKSJ-H
│   ├── Ext-RKSJ-V
│   ├── Ext-V
│   ├── H
│   ├── Hankaku
│   ├── Hiragana
│   ├── Katakana
│   ├── NWP-H
│   ├── NWP-V
│   ├── RKSJ-H
│   ├── RKSJ-V
│   ├── Roman
│   ├── UniJIS-UCS2-H
│   ├── UniJIS-UCS2-HW-H
│   ├── UniJIS-UCS2-HW-V
│   ├── UniJIS-UCS2-V
│   ├── UniJIS-UTF16-H
│   ├── UniJIS-UTF16-V
│   ├── UniJIS-UTF32-H
│   ├── UniJIS-UTF32-V
│   ├── UniJIS-UTF8-H
│   ├── UniJIS-UTF8-V
│   ├── UniJIS2004-UTF16-H
│   ├── UniJIS2004-UTF16-V
│   ├── UniJIS2004-UTF32-H
│   ├── UniJIS2004-UTF32-V
│   ├── UniJIS2004-UTF8-H
│   ├── UniJIS2004-UTF8-V
│   ├── UniJISPro-UCS2-HW-V
│   ├── UniJISPro-UCS2-V
│   ├── UniJISPro-UTF8-V
│   ├── UniJISX0213-UTF32-H
│   ├── UniJISX0213-UTF32-V
│   ├── UniJISX02132004-UTF32-H
│   ├── UniJISX02132004-UTF32-V
│   ├── V
│   └── WP-Symbol
├── EUC-JP.unicodeMap
├── ISO-2022-JP.unicodeMap
├── README
├── Shift-JIS.unicodeMap
└── add-to-xpdfrc
2 directories, 76 files

xpdfrc的内容如下

$ cat /usr/local/etc/xpdfrc
cidToUnicode    Adobe-Japan1    /usr/local/share/xpdf/japanese/Adobe-Japan1.cidToUnicode
unicodeMap  ISO-2022-JP /usr/local/share/xpdf/japanese/ISO-2022-JP.unicodeMap
unicodeMap  EUC-JP      /usr/local/share/xpdf/japanese/EUC-JP.unicodeMap
unicodeMap  Shift-JIS   /usr/local/share/xpdf/japanese/Shift-JIS.unicodeMap
cMapDir     Adobe-Japan1    /usr/local/share/xpdf/japanese/CMap
toUnicodeDir            /usr/local/share/xpdf/japanese/CMap

相关内容

  • 没有找到相关文章

最新更新