人工神经网络能学习语言模型吗?论文2000实施

我是NLP研究领域的新手。我想实现一篇论文:人工神经网络可以学习语言模型吗?本文首次为神经网络学习语言模型迈出了一步。我已经看懂了论文，一切都可以理解，只是论文的最后一部分有些困惑。

我没有找到它的任何代码。 Paper is too old (2000) 我甚至没有找到当时使用的Training data (Communicator Telephone Air Travel Information System)

我也给这篇论文的两位教授发了邮件，但其中一位的邮箱id已经过期，正在等待另一位的回复。

在这种情况下有人能帮我吗?你的指导方针对研究领域的新手很有价值。我很感激你。

是NLP的老文档，但对我来说，这个文档看起来像是NLP的新时代的开始，它使用黑盒技术来学习语言模型，并且似乎它的进一步发展转变为WORD嵌入-据我所知，这个想法是在2008年由谷歌的Mikolov提出的(谷歌称其技术为word2vec)。这是使用递归神经网络来学习模型的方式，将单词呈现为n维向量(在google的word2vec中是n=128)。事实证明，这种表示非常好，因为相似的单词在空间上比其他单词更接近。这里也适用算术，例如:german -capital+paris = france。在这里你有很好的文章，解释和实现在tensorflow根据词嵌入:https://www.tensorflow.org/versions/r0.10/tutorials/word2vec/index.html所以已经有一些实现——以及一个现成的语料库数据——用于学习自己的模型。

我更正了链接-是错误的。也有word2vec在谷歌代码的c++实现，但在谷歌代码项目中非常有用的是大量额外的数据。链接如下:https://code.google.com/archive/p/word2vec/在那里你可以找到预训练的模型(1.5gb)和训练数据的链接:从哪里获取训练数据

单词向量的质量随着训练数据。出于研究目的，您可以考虑使用数据可联机使用的集合:

来自维基百科的前10亿个字符(使用预处理perl从Matt Mahoney的页面底部的脚本)

最新维基百科转储使用与上面相同的脚本来获得干净的文本。应该多于30亿个单词。

WMT11站点:几种语言的文本数据(在训练模型之前，应该删除重复的句子)

数据集来自"十亿字语言建模基准文字，已经经过预处理的文本。

UMBC webbase语料库约3十亿字，更多信息在这里。需要进一步加工(主要是标记)。-更多语言的文本数据可以在statmt.org和Polyglot项目。

相关内容

最新更新

热门标签：