如何从双语词典构建 4 语言词典



3天前,我问了一个关于构建具有3种语言的并行词典的问题:删除某些文本对的差异

问题如下: 我有 2 对具有以下特征的文件

: 对 1: (文件 1.txt , 文件 2.txt) 对 2: (文件 3.txt , 文件 4.txt)

这些对中的每个文件之间有一个逐行的对应关系。 假设File1.txt和File3.txt是一些英语单词,File2.txt和File4.txt分别是它们的阿拉伯语和法语翻译。此外,File1.txt 和 File3.txt 非常相似(在某些情况下是相同的)。


    File1.txt       File2.txt
    EnWord1         ArTrans1
    EnWord2         ArTrans2
    EnWord3         ArTrans3
    Enword4         ArTrans4
    File3.txt       File4.txt
    EnWord1         FrTrans1
    EnWord3         FrTrans3
    Enword4         FrTrans4
    Enword5         FrTrans5

我当时想做的是比较这对的英语方面,找到出现在两个文件(EnWord1,EnWord3和EnWord4)中的常用单词,并过滤掉它们相应的翻译。简而言之,我可以说使用两个双语英语 - 阿拉伯语和英语法语词典,我正在尝试建立一个3语言的英语 - 阿拉伯语 - 法语词典。

史蒂夫回答了我,并写了一个很好的代码来查找重复的英语单词并删除其他单词及其翻译:答案可以在这里找到

但我还有一个更复杂的问题:如果我想添加另一种语言,我该怎么办?我的意思是我有另一本英语-俄语词典(Say File5.txt 包含英语实体,File6.txt 包含俄语实体),我想构建一个 4 语言词典而不是 3 种语言词典。

一种方法是使用当前代码构建 3 种语言词典,然后在新的语言对上重新运行它,构建 4 种语言词典。 但我认为它不够有效,它会更好地解决这个问题。它还可能带来其他语言的一些不一致之处。我的主要挑战是检查重复项:当只有 2 个语言对时,检查重复项将非常容易。但是,如果我想检查 3 对中的重复项,我该怎么办?如何更改代码以便能够一次性提取 4language 词典?

我将描述一种在此任务中使用的通用方法。

1) 定义%dictionary哈希。此哈希的每个键将是一个英语单词,每个值又是对包含该单词翻译的另一个哈希的引用。像这样:

my %dictionary = ( 
  'EnWord1' => { 
     arabic => 'Arabic EnWord1', 
     french => 'French EnWord1',
     ...
  },
  ...
);

(在我们开始处理文件之前,这个哈希将为空,我只是在这里显示一个结构)。

2)同时扫描每对文件,在此哈希中添加相应的记录。有一个简单的方法:

my %filenames = (
  'arabic' => ['File1.txt', 'File2.txt'],
  'french' => ['File3.txt', 'File4.txt'],
  ...
);
for my $lang (keys %filenames) {
  open my $efh, '<', $filenames{$lang}[0] or die $!, "n";
  open my $tfh, '<', $filenames{$lang}[1] or die $!, "n";
  while (<$efh>) {
    chomp(my $enLine = $_);
    chomp(my $trLine = <$tfh>);
    $dictionary{$enLine}{$lang} = $trLine;
  }
}

3)细化%dictionary:只留下那些扫描了所有语言中定义的翻译的元素......

my $proper_translations_count = scalar keys %filenames;
for my $word (keys %dictionary) {
  my $translations = $dictionary{$word};
  if (scalar keys %$translations != $translations_count) {
    delete $dictionary{$word};
  }
}

4)输出%dictionary任何合适的方式。

我不了解 Perl,但我会使用哈希映射。每种语言有 2 个哈希映射。含义的全局标识符(中间语言),适用于所有词典。所以英语单词x有id1,而阿拉伯语中的id1是单词y。因此,一个哈希映射将单词映射到全局标识符,另一个哈希映射将全局标识符映射到实际单词。因此,您可以通过 2 个哈希映射调用将每个单词从一种语言翻译成另一种语言(dict1.get(word):id dict2ID.get(id))

如果你想要一个更简单的解决方案,使用英语作为你的中间语言,但这样你就会在这些词典中出现一些错误。

添加新词典会很容易。您只需获取一个包含该语言的英语文件,并使用 english2intermediate 哈希映射来获取新语言的标识符。

最新更新