'negative sampling'如何提高 word2vec 中的单词表示质量？

'word2vec' 中的负采样提高了训练速度，这显然是！

但为什么">使单词表示更加准确">？

我没有找到相关的讨论或细节。你能帮我吗？

如果没有它出现的完整背景，很难描述该声明的作者可能意味着什么。例如，可以针对不同的任务优化词向量，而使词向量更适合一项任务的相同选项可能会使它们对另一项任务更差。

自Google最初的论文和代码发布以来，评估词向量的一种流行方法是一组词类比问题。这些给出了一个很好的可重复的摘要"准确性"百分比，因此作者可能的意思是，对于特定的训练语料库，在该特定问题上，在其他事情不变的情况下，负采样模式具有更高的"准确性"分数。

但这并不意味着它总是更好，任何语料库，或任何其他下游的质量或任务准确性评估。

具有较大语料库的项目，尤其是较大的词汇表(更独特的单词(，往往更喜欢负采样模式。随着词汇表变大，分层软最大替代模式会变慢，而负采样模式则不会。

而且，拥有一个庞大而多样的语料库，以及所有有趣单词的许多微妙不同的用法示例，是真正好的词向量最重要的贡献者。

因此，仅仅通过在有限的训练时间内使较大的语料库易于管理，负采样可以被视为间接地改进词向量 - 因为语料库大小是如此重要的因素。

相关内容