在语料库中查找给定单词的翻译，例如通过机器学习、word2vec、文本挖掘

我使用这个线程来获得一些想法并找到一些可能性。

我有大约1000篇布道，并将它们翻译成另一种语言。讲道的篇幅各不相同。这些都是宗教讲道经文。由于领域(宗教(的原因，有很多单词可以根据上下文以不同的方式使用。同一个词可以变成不同的意思。

有没有办法，在那里我可以得到"；以编程方式"；目标语言中给定单词的翻译？

x1->[y2，z2，a2，b2，c2]
其中x是语言1中的单词
并且返回的数组包含语言2 的翻译

这将是最好的情况。也许这可以通过使用领域数据训练翻译模型来实现，但我没有很多数据。

使用word2vec可能吗？通过创建文本(语言1和语言2(的向量空间，并使用转换矩阵，是否有可能将语义放在一起？

你知道其他方法或有其他想法吗？也许已经有这样的工作了吗？这类研究叫什么？我没能找到这样的东西。我希望你们对如何实现这一目标有一些想法。

一般目的是"；以创建一个工具"；对于这一特定领域的研究者来说，可以用来分析讲道词的翻译质量。如果你对如何分析翻译(语义(的质量有其他想法，我将非常感谢。

要获得句子中特定单词的翻译，可以使用所谓的单词对齐。

要获得翻译的质量，可以使用所谓的质量估计。

machinetranslate.org/quality-eestimation

基于单词向量的解决方案(FastText向量通常比Word2Vec更好(当然是可能的。您正在寻找的任务是双语词典归纳。最常用的工具是VecMap，它可以对齐两种语言的两个嵌入空间。它要么使用一个小种子字典来对齐所有单词，要么甚至可以以完全无监督的方式工作。

另一种解决方案是进行单词对齐，即在统计上对齐翻译中的单词。然后，你可以根据单词相互映射的频率来获得一本词典(注意，当语言在形态上不同时，可能会出现问题(。在这种情况下，你可以很容易地展示翻译如何在句子中使用的例子。如果XLM-R模型涵盖了您感兴趣的语言，我建议使用SimAlign(一种神经解决方案(。如果没有，您可以使用Eflomal(一种统计解决方案(。

相关内容

最新更新

热门标签：