Word2Vec对于监督学习是否有意义



我有一个句子/标签对列表来训练模型的列表,我应该如何将句子作为输入编码为svm?

是用相同语言的句子吗?您可以从验证的Word2Vec文件开始,如果是英语,则可以从Google下载。请注意火车文件的创建方式,是否应用茎等。也有些重要。如果这是从新闻组或从网络中提取或从更正式的文本中提取的,您将获得不同的结果。

word2vec基本上将每个单词编码为更高的维矢量空间。通常是200,300或500个尺寸。训练之后,"测试"句子基本上是单词袋,不必按任何顺序进行。

您会为单词袋中的每个单词,找出相应的word2vec vector。然后,您可以通过平均矢量,以"最小值","最大值"来创建功能,如果您要比较文本,请查看计算向量之间的余弦相似性。然后在SVM中使用这些功能。

相关内容

最新更新