人工神经网络能学习语言模型吗?论文2000实施



我是NLP研究领域的新手。我想实现一篇论文:人工神经网络可以学习语言模型吗?本文首次为神经网络学习语言模型迈出了一步。我已经看懂了论文,一切都可以理解,只是论文的最后一部分有些困惑。

我没有找到它的任何代码。 Paper is too old (2000) 我甚至没有找到当时使用的Training data (Communicator Telephone Air Travel Information System)

我也给这篇论文的两位教授发了邮件,但其中一位的邮箱id已经过期,正在等待另一位的回复。

在这种情况下有人能帮我吗?你的指导方针对研究领域的新手很有价值。我很感激你。

是NLP的老文档,但对我来说,这个文档看起来像是NLP的新时代的开始,它使用黑盒技术来学习语言模型,并且似乎它的进一步发展转变为WORD嵌入-据我所知,这个想法是在2008年由谷歌的Mikolov提出的(谷歌称其技术为word2vec)。这是使用递归神经网络来学习模型的方式,将单词呈现为n维向量(在google的word2vec中是n=128)。事实证明,这种表示非常好,因为相似的单词在空间上比其他单词更接近。这里也适用算术,例如:german -capital+paris = france。在这里你有很好的文章,解释和实现在tensorflow根据词嵌入:https://www.tensorflow.org/versions/r0.10/tutorials/word2vec/index.html所以已经有一些实现——以及一个现成的语料库数据——用于学习自己的模型。

我更正了链接-是错误的。也有word2vec在谷歌代码的c++实现,但在谷歌代码项目中非常有用的是大量额外的数据。链接如下:https://code.google.com/archive/p/word2vec/在那里你可以找到预训练的模型(1.5gb)和训练数据的链接:从哪里获取训练数据

单词向量的质量随着训练数据。出于研究目的,您可以考虑使用数据可联机使用的集合:

  • 来自维基百科的前10亿个字符(使用预处理perl从Matt Mahoney的页面底部的脚本)
  • 最新维基百科转储使用与上面相同的脚本来获得干净的文本。应该多于30亿个单词。
  • WMT11站点:几种语言的文本数据(在训练模型之前,应该删除重复的句子)
  • 数据集来自"十亿字语言建模基准文字,已经经过预处理的文本。
  • UMBC webbase语料库约3十亿字,更多信息在这里。需要进一步加工(主要是标记)。-更多语言的文本数据可以在statmt.org和Polyglot项目。

最新更新