如何将数据集转换为glove或word2vec格式



我下载了我的twitter档案,并想运行word2vec在上面实验大多数相似的单词、类比等。

但我被困在第一步——如何转换给定的数据集.csv/文档,以便将其输入到word2vec?即,将数据转换为glove/word2vec格式的过程是什么?

单词2vec&GLoVe算法执行以下操作之一或两者:

  • 接受纯文本文件,其中标记由(一个或多个(空格分隔,文本被认为是一次由每一换行符分隔的行(行不"太长"-通常是每行的短文、段落或句子(

  • 有一些特定于语言/库的接口,用于将文本(令牌列表(作为流/可迭代提供给算法

Python-Gensim库为其Word2Vec类提供了这两个选项。

在将这些库应用于您自己的数据之前,您通常应该尝试完成一个或多个教程,以获得所涉及步骤的工作概述,从原始数据到有趣的结果。而且,通过检查这些教程使用的格式,以及它们为将数据转换为您正在使用的库所需的格式而执行的额外步骤,您还可以了解如何准备数据。

最新更新