如何保留Word2Vec中的记录数量



我的数据框中有45000个文本记录。我想将这些45000记录转换为单词向量,以便可以在vector上训练分类器。我不给句子示意。我只是将每个条目分为单词列表。

在训练具有300个功能的Word2Vec模型之后,该模型的形状仅导致26000。如何保留所有45000个记录?

在分类器模型中,我需要所有这45000个记录,以便它可以匹配45000输出标签。

如果将每个条目分为单词列表,则本质上是'令牌化'。

word2vec只是学习每个单词的向量,而不是每个文本示例('record'(,因此没有什么可"保存",没有创建45,000个记录的向量。但是,如果记录中有26,000个独特的单词(应用min_count之后(,则最终将有26,000个向量。

Gensim的doc2vec('段落向量'算法(可以为每个文本示例创建一个向量,因此您可能需要尝试。

如果您只有单词向量,则为较大文本创建向量的一种简单方法就是将所有单个单词向量添加在一起。进一步的选项包括在使用许多幅度的单元字矢量或原始单词矢量之间进行选择;是否将单位单位总和为单位;以及是否以其他任何重要性因素(例如TF/IDF(来加权单词。

请注意,除非您的文档很长,否则这是Word2VEC或DOC2VEC的相当小的培训。

最新更新