我听说过很多关于神经网络Word2vec的事情,它能够根据文学语境来解决文学类比问题。人们通常将权重描述为预先标记的数据所带来的训练偏差,但通常没有描述的是这些权重实际计算的内容。在Word2vec的情况下,他们的300个隐藏权重计算什么?Contexual职位?内涵的频率?数字化语法特征的多样性?
从我的角度来看,我已经能够将神经网络可视化到布尔异或处理训练算法的复杂性。在这种情况下,我知道权重为输出添加了数值化的偏差,分别为False和True给出0或1。然而,我不能把这种联系到Word2vec,这是一个完全不同的类型(文学)。有人能详细解释一下吗?
这些权重并没有真正"测量"任何东西。
在浅层神经网络架构的约束下,权重从随机初始化开始逐步优化,以便在配置的上下文窗口内从其邻居中越来越好地预测"目标"/"中心"词。
更具体地说,网络被输入(actual-context -> actual-word)
的单个示例,并通过前向传播观察其对可能目标词的当前预测(通过特定输出节点解释)。然后,通过反向传播,对权重进行微调,使预测稍微好一点。
当然,因为上下文并不总是完美地预测一个单词——许多相同的上下文会有不同的目标单词——不同的例子以不同的方式拉权重,就像拔河一样。没有一个训练语料库能够反映所有可能的表达,而只是一个子集。而且模型本身的大小有限——远远小于训练数据——所以它在某种模糊的意义上"压缩"了语料库,将其压缩到最可靠的模式。
最终,该模型在其有限的尺寸和运行机制下,在这些微观预测任务中得到尽可能好的结果。这就是"收敛"在优化过程中:进一步的训练不能找到任何其他可靠地提高整体表现的重量推动。(如果他们改进了一些例子,他们就伤害了其他例子。)
在这个阶段,事实证明,将所有单词和所有用法示例强制放入模型有限的共享表示的过程创建了人们认为有用的"单词向量"。(单词向量可以被认为是模型内的一个"投影层",它将维度等于所有已知单词数的一个热单词向量变成维度少得多的密集向量。)人类认为相似的词往往是相近的,因为把它们放在相似的位置可以提高预测能力。
此外,向量空间中的模糊方向往往与人类理解的各个方面相关。(它们并没有整齐地映射到坐标轴上,而是一次在所有维度上剪切。)这就产生了通过向量数学模拟类比推理的令人印象深刻的能力。
最终权重与文本的其他特征(共发生次数、频率、相对位置、人类可理解的语法)有模糊的关系,但它们实际上只是训练/优化过程的最终产物:从最初随机的位置开始,哪些一系列的推动使预测更好?
为什么对某些任务有效的基础是更实际/经验的,而不是完全基于理论的。