如何非交互式地使用fairseq interactive.py



我正在尝试使用Fairseq将英语翻译成阿拉伯语。但是interactive.py脚本可以即时翻译文本片段。但我需要将其用作读取输入文本文件和写入输出文本文件。我提到了这个GitHub问题-https://github.com/pytorch/fairseq/issues/858但它并没有明确解释如何做到这一点。有什么建议吗?

fairseq-interactive可以使用--input参数从文件中读取行,并将翻译输出为标准输出。

假设我有一个输入文本文件source.txt(其中每个要翻译的句子都在一行上(:

Hello world!
My name is John

您可以运行:

fairseq-interactive --input=source.txt [all-your-fairseq-parameters] > target.txt

其中CCD_ 4表示";将fairseq-interactive"生成的所有(标准(输出放入target.txt文件中;。如果该文件尚不存在,则会创建该文件。

对于英语到法语的模型,它会生成一个文件target.txt,看起来像这样(实际输出可能会根据您的模型、配置和Fairseq版本而有所不同(:

S-0     Hello world!
W-0     0.080   seconds
H-0     -0.43813419342041016    Bonj@@ our le monde !
D-0     -0.43813419342041016    Bonjour le monde !
P-0     -0.1532 -1.7157 -0.0805 -0.0838 -0.1575
S-1     My name is John
W-1     0.080   seconds
H-1     -0.3272092938423157     Je m' appelle John .
D-1     -0.3272092938423157     Je m'appelle John.
P-2     -0.3580 -0.2207 -0.0398 -0.1649 -1.0216 -0.1583

为了只保留翻译(以D-开头的行(,您必须过滤此文件的内容。例如,您可以使用以下命令:

grep -P "D-[0-9]+" target.txt | cut -f3 > only_translations.txt

但您可以将所有命令合并在一行中:

fairseq-interactive --input=source.txt [all-your-fairseq-parameters] | grep -P "D-[0-9]+" | cut -f3 > target.txt

(实际命令将取决于target.txt的实际结构。(

最后,要知道您可以使用--input=-从标准输入读取输入。

我发现fairseq交互有点慢。如果您只想使用fairseq预训练模型来输入和输出文件,我认为还有另一个潜在的解决方案。(但不确定是否会更快(

基本上,您可以在python中加载模型并使用model.translate

from fairseq.models.transformer import TransformerModel
trans = TransformerModel.from_pretrained(
'models/',
checkpoint_file='checkpoint_best.pt',
data_name_or_path='bin/',
is_gpu=True
).cuda()
inputs = "Di-mairt Clodh-bhualadh a cheud leabhair,"
print(trans.translate(inputs))

按照这个想法,你可以很容易地阅读和翻译文件。但也许有一种更好的方法可以直接翻译文件。

最新更新