如何将具有多个数字的数字添加到word2vec词汇表中



我正在尝试使用 word2vec 获取 1043 个节点列表的嵌入。当我尝试构建词汇表时,我发现word2vec获取带有节点的列表列表并将它们视为个位数,例如"143"变为"1","4","3"。

我已经尝试将所有数字作为单个条目,看看它是否是一个格式问题,并使用buil_vocab_from_freq而不是build_vocab,但这也只会产生错误(类型为"int"的对象没有len(((。

我的代码如下:

from gensim.models import Word2Vec
def generateEmbeddings(all_walks,dimension,min_count):
    model = Word2Vec(min_count = min_count, size = dimension)
    mylist = list(range(1,1043))
    corpus = {}
    j=1
    for i in mylist:
      corpus[str(i)] = j
      j=j+1
    #mylist = [str(i) for i in mylist]
    print(corpus)
    model.build_vocab_from_freq(corpus)
    model.train(mylist, total_examples=model.corpus_count, epochs = 30)
    #if it reaches this point it throws the error "14 not found in vocabulary"
    print(model.wv.most_similar(positive=['14']))
    return model
print(generateEmbeddings(all_walks,128,2))

我想获得嵌入,例如数字"14"而不是现在的"1"。感谢您的帮助!

//编辑

如果其他人遇到此特定问题,我设法解决此问题:您必须将列表格式化为 [["1","102","43"],["54","43"]] 等。您无法在运行时更改旧列表(或者至少它不像我那样工作(,因此您可以在运行时使用

new_list = []
    for i in all_walks:
      temp_list = []
      for j in i:
        temp_list.append(str(j))
      new_list.append(temp_list)

根据我们上面的讨论,工作方法将Word2Vec它期望的语料库类型——一个可迭代的序列,其中每个项目都是字符串标记的列表。

因此,字符串列表列表将起作用,例如...

[
  ['1','2','3'],
  ['1','2','4'],
  ['10','11','12'],
  ['10','14','15','900']
]

。而不是任何包含原始整数的东西(如list(range(1, 1043)(。

最新更新