保存的Gensim LdaMallet模型在不同的控制台中不起作用



我正在用python训练一个ldamallet模型并保存它。我还保存了训练词典,以后可以用来为看不见的文档创建语料库。如果我在同一控制台中执行每个操作(即训练模型、保存训练模型、加载保存的模型、推断看不见的语料库),一切正常。但是,我想在不同的控制台/计算机中使用经过训练的模型。

我在训练时传递了前缀以查看模型创建的临时文件。训练模型时会创建以下文件:

"语料库.木槌">

"语料库.txt">

'doctopics'txt'

inferencer.mallet'

"状态.木槌.gz">

"主题键.txt">

现在,当我在不同的控制台中加载保存的模型并推断使用保存的字典创建的看不见的语料库时,我看不到正在创建的其他临时文件并产生以下错误:

FileNotFounderror: No such file or directory : 'my_directory\doctopics.txt.infer'

出于某种奇怪的原因,如果我在同一控制台(训练它的控制台)中加载保存的模型并推断出上面看不见的语料库,"语料库.txt"会更新并创建两个新的临时文件:

'语料库.槌.推断'

'doctopics.txt.infer'

知道为什么我可能会遇到这个问题吗?

我尝试使用LdaModel而不是LdaMallet,无论我在同一控制台还是不同控制台中执行整个任务,LdaModel都可以正常工作。

下面是我正在使用的代码片段。

def find_optimum_model(self):
lemmatized_words = self.lemmatization()
id2word = corpora.Dictionary(lemmatized_words)
all_corpus = [id2word.doc2bow(text) for text in lemmatized_words]
#For two lines below update with your path to new_mallet
os.environ['MALLET_HOME'] = r'C:\users\axk0er8\Sentiment_Analysis_Working\new_mallet\mallet-2.0.8'
mallet_path = r'C:\users\axk0er8\Sentiment_Analysis_Working\new_mallet\mallet-2.0.8\bin\mallet.bat'
prefix_path = r'C:\users\axk0er8\Sentiment_Analysis_Working\new_mallet\mallet_temp\'
def compute_coherence_values(dictionary, all_corpus, texts, limit, start=2, step=4):
coherence_values = []
model_list = []
num_topics_list = []

for num_topics in range(start, limit, step):
model = gensim.models.wrappers.LdaMallet(mallet_path, corpus=all_corpus, num_topics=num_topics, id2word=dictionary,
random_seed=42)
#model = gensim.models.ldamodel.LdaModel(corpus=all_corpus,num_topics=num_topics,id2word=dictionary,eval_every=1,
#                                        alpha='auto',random_state=42)
model_list.append(model)
coherencemodel = CoherenceModel(model=model, texts=texts, dictionary=dictionary, coherence='c_v')
coherence_values.append(coherencemodel.get_coherence())
num_topics_list.append(num_topics)
return model_list, coherence_values, num_topics_list
model_list, coherence_values, num_topics_list = compute_coherence_values(dictionary=id2word,all_corpus=all_corpus,
          texts=lemmatized_words,start=5,limit=40, step=6)
model_values_df = pd.DataFrame({'model_list':model_list,'coherence_values':coherence_values,'num_topics':num_topics_list})
optimal_num_topics = model_values_df.loc[model_values_df['coherence_values'].idxmax()]['num_topics']
optimal_model = gensim.models.wrappers.LdaMallet(mallet_path, corpus=all_corpus, num_topics=optimal_num_topics, id2word=id2word,
prefix=prefix_path, random_seed=42)
#joblib.dump(id2word,'id2word_dictionary_mallet.pkl')
#joblib.dump(optimal_model,'optimal_ldamallet_model.pkl')
id2word.save('id2word_dictionary.gensim')
optimal_model.save('optimal_lda_model.gensim')
def generate_dominant_topic(self):
lemmatized_words = self.lemmatization()
id2word = corpora.Dictionary.load('id2word_dictionary.gensim')
#id2word = joblib.load('id2word_dictionary_mallet.pkl')
new_corpus = [id2word.doc2bow(text) for text in lemmatized_words]
optimal_model = gensim.models.wrappers.LdaMallet.load('optimal_lda_model.gensim')
#optimal_model = joblib.load('optimal_ldamallet_model.pkl')

def format_topics_sentences(ldamodel, new_corpus):
sent_topics_df = pd.DataFrame()
for i, row in enumerate(ldamodel[new_corpus]):
row = sorted(row, key=lambda x: (x[1]), reverse=True)
for j, (topic_num, prop_topic) in enumerate(row):
if j == 0:
wp = ldamodel.show_topic(topic_num)
topic_keywords = ", ".join([word for word, prop in wp])
sent_topics_df = sent_topics_df.append(pd.Series([int(topic_num), round(prop_topic,4), topic_keywords]),
ignore_index=True)
else:
break
sent_topics_df.columns = ['Dominant_Topic', 'Perc_Contribution', 'Topic_Keywords']
return (sent_topics_df)

我的期望是将find_optimum_model函数与训练数据一起使用,并保存最佳模型和字典。保存后,使用generate_dominant_topic函数加载保存的模型和字典,为看不见的文本创建语料库并运行模型以获得所需的主题建模输出。

尽管名称如此,但这些实际上并不是"临时"文件,因为模型需要它们来运行。 我强烈建议您将它们复制到与旧控制台相同的相对位置(前缀)的新控制台(以便模型知道在哪里查找它们)。希望这会奏效。 但是,我自己还没有尝试过。

推断文件在从训练到使用模型进行分类时显示。 我认为他们需要构建推理器... 我不得不多次删除和重新训练我的木槌模型,因为这些文件经常损坏。

是的,您需要随身携带这些文件:https://github.com/RaRe-Technologies/gensim/issues/818

加载模型后,可以指定新的前缀路径,如下所示:

ldamodel.prefix = 'path/to/new/prefix'

相关内容

  • 没有找到相关文章

最新更新