Word2vec gensim - 使用短语时计算单词之间的相似性不起作用 - Word2vec gensim - Calculating similarity between word isn't working when using phrases 小贝子编程网

使用gensim word2vec模型来计算两个单词之间的相似性。用250MB的Wikipedia文本训练模型给出了良好的结果 - 相关单词的相似性得分约为0.7-0.8。

问题是，当我使用Phraser模型将短语添加时，相似性得分下降到相同的确切单词几乎为零。

用短语模型结果：

speed - velocity - 0.0203503432178
high - low - -0.0435703782446
tall - high - -0.0076987978333
nice - good - 0.0368784716958
computer - computational - 0.00487748035808

这可能意味着我无法正确使用词句模型。

我的代码：

    data_set_location = **
    sentences = SentenceIterator(data_set_location)
    # Train phrase locator model
    self.phraser = Phraser(Phrases(sentences))
    # Renewing the iterator because its empty
    sentences = SentenceIterator(data_set_location)
    # Train word to vector model or load it from disk
    self.model = Word2Vec(self.phraser[sentences], size=256, min_count=10, workers=10)

class SentenceIterator(object):
    def __init__(self, dirname):
        self.dirname = dirname
    def __iter__(self):
        for fname in os.listdir(self.dirname):
            for line in open(os.path.join(self.dirname, fname), 'r', encoding='utf-8', errors='ignore'):
                yield line.lower().split()

仅尝试法式模型看起来正常工作：

>>>vectorizer.phraser['new', 'york', 'city', 'the', 'san', 'francisco'] ['new_york', 'city', 'the', 'san_francisco']

什么会导致这种行为？

试图找出解决方案：

根据Gojomo答案，我尝试创建一个PhraserIterator：

import os
class PhraseIterator(object):
def __init__(self, dirname, phraser):
    self.dirname = dirname
    self.phraser = phraser
def __iter__(self):
    for fname in os.listdir(self.dirname):
        for line in open(os.path.join(self.dirname, fname), 'r', encoding='utf-8', errors='ignore'):
            yield self.phraser[line.lower()]

使用此迭代器我尝试训练我的Word2vec型号。

phrase_iterator = PhraseIterator(text_dir, self.phraser)
self.model = Word2Vec(phrase_iterator, size=256, min_count=10, workers=10

Word2Vec培训日志：

    Using TensorFlow backend.
2017-06-30 19:19:05,388 : INFO : collecting all words and their counts
2017-06-30 19:19:05,456 : INFO : PROGRESS: at sentence #0, processed 0 words and 0 word types
2017-06-30 19:20:30,787 : INFO : collected 6227763 word types from a corpus of 28508701 words (unigram + bigrams) and 84 sentences
2017-06-30 19:20:30,793 : INFO : using 6227763 counts as vocab in Phrases<0 vocab, min_count=5, threshold=10.0, max_vocab_size=40000000>
2017-06-30 19:20:30,793 : INFO : source_vocab length 6227763
2017-06-30 19:21:46,573 : INFO : Phraser added 50000 phrasegrams
2017-06-30 19:22:22,015 : INFO : Phraser built with 70065 70065 phrasegrams
2017-06-30 19:22:23,089 : INFO : saving Phraser object under **/Models/word2vec/phrases_model, separately None
2017-06-30 19:22:23,441 : INFO : saved **/Models/word2vec/phrases_model
2017-06-30 19:22:23,442 : INFO : collecting all words and their counts
2017-06-30 19:22:29,347 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2017-06-30 19:33:06,667 : INFO : collected 143 word types from a corpus of 163438509 raw words and 84 sentences
2017-06-30 19:33:06,677 : INFO : Loading a fresh vocabulary
2017-06-30 19:33:06,678 : INFO : min_count=10 retains 95 unique words (66% of original 143, drops 48)
2017-06-30 19:33:06,679 : INFO : min_count=10 leaves 163438412 word corpus (99% of original 163438509, drops 97)
2017-06-30 19:33:06,683 : INFO : deleting the raw counts dictionary of 143 items
2017-06-30 19:33:06,683 : INFO : sample=0.001 downsamples 27 most-common words
2017-06-30 19:33:06,683 : INFO : downsampling leaves estimated 30341972 word corpus (18.6% of prior 163438412)
2017-06-30 19:33:06,684 : INFO : estimated required memory for 95 words and 256 dimensions: 242060 bytes
2017-06-30 19:33:06,685 : INFO : resetting layer weights
2017-06-30 19:33:06,724 : INFO : training model with 10 workers on 95 vocabulary and 256 features, using sg=0 hs=0 sample=0.001 negative=5 window=5
2017-06-30 19:33:14,974 : INFO : PROGRESS: at 0.00% examples, 0 words/s, in_qsize 0, out_qsize 0
2017-06-30 19:33:23,229 : INFO : PROGRESS: at 0.24% examples, 607 words/s, in_qsize 0, out_qsize 0
2017-06-30 19:33:31,445 : INFO : PROGRESS: at 0.48% examples, 810 words/s, 
...
2017-06-30 20:19:00,864 : INFO : PROGRESS: at 98.57% examples, 1436 words/s, in_qsize 0, out_qsize 1
2017-06-30 20:19:06,193 : INFO : PROGRESS: at 99.05% examples, 1437 words/s, in_qsize 0, out_qsize 0
2017-06-30 20:19:11,886 : INFO : PROGRESS: at 99.29% examples, 1437 words/s, in_qsize 0, out_qsize 0
2017-06-30 20:19:17,648 : INFO : PROGRESS: at 99.52% examples, 1438 words/s, in_qsize 0, out_qsize 0
2017-06-30 20:19:22,870 : INFO : worker thread finished; awaiting finish of 9 more threads
2017-06-30 20:19:22,908 : INFO : worker thread finished; awaiting finish of 8 more threads
2017-06-30 20:19:22,947 : INFO : worker thread finished; awaiting finish of 7 more threads
2017-06-30 20:19:22,947 : INFO : PROGRESS: at 99.76% examples, 1439 words/s, in_qsize 0, out_qsize 8
2017-06-30 20:19:22,948 : INFO : worker thread finished; awaiting finish of 6 more threads
2017-06-30 20:19:22,948 : INFO : worker thread finished; awaiting finish of 5 more threads
2017-06-30 20:19:22,948 : INFO : worker thread finished; awaiting finish of 4 more threads
2017-06-30 20:19:22,948 : INFO : worker thread finished; awaiting finish of 3 more threads
2017-06-30 20:19:22,948 : INFO : worker thread finished; awaiting finish of 2 more threads
2017-06-30 20:19:22,948 : INFO : worker thread finished; awaiting finish of 1 more threads
2017-06-30 20:19:22,949 : INFO : worker thread finished; awaiting finish of 0 more threads
2017-06-30 20:19:22,949 : INFO : training on 817192545 raw words (4004752 effective words) took 2776.2s, 1443 effective words/s
2017-06-30 20:19:22,950 : INFO : saving Word2Vec object under **/Models/word2vec/word2vec_model, separately None
2017-06-30 20:19:22,951 : INFO : not storing attribute syn0norm
2017-06-30 20:19:22,951 : INFO : not storing attribute cum_table
2017-06-30 20:19:22,958 : INFO : saved **/Models/word2vec/word2vec_model

在此训练之后 - 两个相似性计算中的任何一个都会产生零：

speed - velocity - 0
high - low - 0

所以看来迭代器的运行不佳，所以我已经使用gojomo trick进行了检查：

print(sum(1 for _ in s))
1
print(sum(1 for _ in s))
1

及其工作。

问题可能是什么？

首先，如果您的峰值类正常工作 - 对我来说看起来还不错 - 您无需"续订迭代器，因为它是空的"。相反，它将能够多次迭代。您可以测试它是否可以作为一个峰值对象正常工作，而不是单个迭代，并具有以下代码：

sentences = SentencesIterator(mypath)
print(sum(1 for _ in sentences))
print(sum(1 for _ in sentences))

如果相同的长度打印两次，恭喜，您有一个真实的对象。(您可能需要更新类名来反映这一点。(如果第二个长度为 0，则只有一个迭代器：可以消耗一次，然后在随后的尝试中为空。(如果是这样，请调整类代码，以便每个呼叫__iter__()启动新鲜。但是如上所述，我认为您的代码已经正确。(

离题很重要，因为您问题的真正原因是self.phraser[sentences]只是返回一次一次迭代对象，不是一个可重复的迭代对象。因此，Word2Vec的第一个词汇发现步骤在其一次性中消耗了整个语料库，然后所有训练通行证都什么都看不到 - 也没有发生培训。(如果您有信息级登录，则在输出中应该明显显示出任何示例的即时培训。(

尝试制作一个PhraserIterable类，该类别为phraser和sentences，然后在__iter__()的每个呼叫时，都会启动新的，新的通行证。提供该word2vec的语料库的(可确认的(实例。您应该看到训练需要更长的时间，因为它的默认5次通过，然后在稍后的令牌范围内查看实际结果。

单独：将原始sentences的摘要升级到词句计算的大灯可能在计算上很昂贵。上面建议的方法意味着发生了6次 - 词汇扫描，然后是5个训练。在关注运行时间的情况下，执行词句组合一次可能是有益的，然后将该文件用作Word2Vec模型的输入。

使用gojomo的帮助，这是有效的代码：

phroaseiterator：

class PhraseIterator(object):
def __init__(self, phraser, sentences_iterator):
    self.phraser = phraser
    self.sentences_iterator = sentences_iterator
def __iter__(self):
        yield self.phraser[self.sentences_iterator]

使用此迭代器产生了一个错误：

不可用的类型列表

所以我找到了一种解决方案，该解决方案是这样使用的：

from itertools import chain
phrase_iterator = PhraseIterator(self.phraser, sentences)
self.model = Word2Vec(list(chain(*phrase_iterator)), size=256, min_count=10, workers=10)

现在，相似性计算效果很好(比以前更好，没有措辞(：

speed - velocity - 0.950267364305
high - low - 0.933983275802
tall - high - 0.858025875923
nice - good - 0.878882061037
computer - computational - 0.972395648333

Word2vec gensim - 使用短语时计算单词之间的相似性不起作用

相关内容

最新更新

热门标签：