在语料库中查找给定单词的翻译,例如通过机器学习、word2vec、文本挖掘



我使用这个线程来获得一些想法并找到一些可能性。

我有大约1000篇布道,并将它们翻译成另一种语言。讲道的篇幅各不相同。这些都是宗教讲道经文。由于领域(宗教(的原因,有很多单词可以根据上下文以不同的方式使用。同一个词可以变成不同的意思。

有没有办法,在那里我可以得到";以编程方式";目标语言中给定单词的翻译?

x1->[y2,z2,a2,b2,c2]
其中x是语言1中的单词
并且返回的数组包含语言2 的翻译

这将是最好的情况。也许这可以通过使用领域数据训练翻译模型来实现,但我没有很多数据。

使用word2vec可能吗?通过创建文本(语言1和语言2(的向量空间,并使用转换矩阵,是否有可能将语义放在一起?

你知道其他方法或有其他想法吗?也许已经有这样的工作了吗?这类研究叫什么?我没能找到这样的东西。我希望你们对如何实现这一目标有一些想法。

一般目的是";以创建一个工具";对于这一特定领域的研究者来说,可以用来分析讲道词的翻译质量。如果你对如何分析翻译(语义(的质量有其他想法,我将非常感谢。

要获得句子中特定单词的翻译,可以使用所谓的单词对齐

要获得翻译的质量,可以使用所谓的质量估计

machinetranslate.org/quality-eestimation

基于单词向量的解决方案(FastText向量通常比Word2Vec更好(当然是可能的。您正在寻找的任务是双语词典归纳。最常用的工具是VecMap,它可以对齐两种语言的两个嵌入空间。它要么使用一个小种子字典来对齐所有单词,要么甚至可以以完全无监督的方式工作。

另一种解决方案是进行单词对齐,即在统计上对齐翻译中的单词。然后,你可以根据单词相互映射的频率来获得一本词典(注意,当语言在形态上不同时,可能会出现问题(。在这种情况下,你可以很容易地展示翻译如何在句子中使用的例子。如果XLM-R模型涵盖了您感兴趣的语言,我建议使用SimAlign(一种神经解决方案(。如果没有,您可以使用Eflomal(一种统计解决方案(。

最新更新