i使用Gensim构建了LDA模型,我想获得主题单词,我只能获得主题的单词,只有没有概率,也没有IDS.words。
我在Gensim中尝试了print_topics()和show_topics()函数,但我无法得到干净的单词!
这是我使用的代码
dictionary = corpora.Dictionary(doc_clean)
doc_term_matrix = [dictionary.doc2bow(doc) for doc in doc_clean]
Lda = gensim.models.ldamodel.LdaModel
ldamodel = Lda(doc_term_matrix, num_topics=12, id2word = dictionary, passes = 100, alpha='auto', update_every=5)
x = ldamodel.print_topics(num_topics=12, num_words=5)
for i in x:
print(i[1])
#print('n' + str(i))
0.045*تعرض + 0.045*الماضية + 0.045*السنوات + 0.045*وءسرته + 0.045*لءحمد
0.021*مصر + 0.021*الديمقراطية + 0.021*حرية + 0.021*باسم + 0.021*الحكومة
0.068*المواطنة + 0.068*الطاءفية + 0.068*وانهيارات + 0.068*رابطة + 0.005*طبول
0.033*عربية + 0.033*انكسارات + 0.033*رهابيين + 0.033*بحقوق + 0.033*ل
0.007*وحريات + 0.007*ممنهج + 0.007*قواءم + 0.007*الناس + 0.007*دراج
0.116*طبول + 0.116*الوطنية + 0.060*يكتب + 0.060*مصر + 0.005*عربية
0.064*قيم + 0.064*وهن + 0.064*عربيا + 0.064*والتعددية + 0.064*الديمقراطية
0.036*تضامنا + 0.036*الشخصية + 0.036*مع + 0.036*التفتيش + 0.036*الءخلاق
0.052*تضامنا + 0.052*كل + 0.052*محمد + 0.052*الخلوق + 0.052*مظلوم
0.034*بمواطنين + 0.034*رهابية + 0.034*لم + 0.034*عليهم + 0.034*يثبت
0.035*مع + 0.035*ومستشار + 0.035*يستعيدا + 0.035*ءرهقهما + 0.035*حريتهما
0.064*للقمع + 0.064*قريبة + 0.064*لا + 0.064*نهاية + 0.064*مصر
我尝试了show_topics,它给出了相同的输出
y = np.array(ldamodel.show_topics(num_topics=12, num_words=5))
for i in y[:,1]:
#if i != '%d':
#print([str(word) for word in i])
print(i)
如果我有主题ID,我如何访问其单词和其他信息
预先感谢
我认为以下代码段应该为您提供包含每个主题(TP)和相应单词(WD)的元组列表
x=ldamodel.show_topics(num_topics=12, num_words=5,formatted=False)
topics_words = [(tp[0], [wd[0] for wd in tp[1]]) for tp in x]
#Below Code Prints Topics and Words
for topic,words in topics_words:
print(str(topic)+ "::"+ str(words))
print()
#Below Code Prints Only Words
for topic,words in topics_words:
print(" ".join(words))
另一个答案是给出一个与每个单词相关的权重的字符串。但是,如果您想单独将每个单词分开以进行进一步的工作。然后,您可以尝试一下。这里的主题没有字典的关键,该值是一个字符串,其中包含该主题中的所有单词
分隔x=ldamodel.show_topics()
twords={}
for topic,word in x:
twords[topic]=re.sub('[^A-Za-z ]+', '', word)
print(twords)
假设您的模型称为ldamodel
:
my_dict = {'Topic_' + str(i): [token for token, score in ldamodel.show_topic(i, topn=10)] for i in range(0, ldamodel.num_topics)}
我们得到(对于两个主题):
print(my_dict)
{'Topic_0': ['excel',
'data',
'learn',
'feedback',
'coaching',
'tips',
'digital',
'use',
'team',
'people'],
'Topic_1': ['leadership',
'decisions',
'business',
'agile',
'people',
'change',
'global',
'data',
'team',
'leaders']}
或my_dict['Topic_0']
,我们得到:
['excel',
'data',
'learn',
'feedback',
'coaching',
'tips',
'digital',
'use',
'team',
'people']
您可以在Gensim中使用 get_topic_terms()而不是print_topics()和show_topics()函数。
假设您有以下2个变量: id2word 和 lda_model ,在其中定义如下:
corpus_words = [['term1', 'term_2'], ['term3', 'term4']]
id2word = gensim.corpora.Dictionary(corpus_words)
corpus = [id2word.doc2bow(text) for text in corpus_words]
lda_model = gensim.models.LdaMulticore(corpus=corpus, id2word=id2word, num_topics=2)
通过调用 get_topic_terms():
[ lda_model.get_topic_terms(tid, topn=3)] for tid in range(2) ]
您获得了3个单词的ID及其分数。
那么,以下是需要的:
[ [(id2word[wid], s) for (wid, s) in lda_model.get_topic_terms(tid, topn=3)] for tid in range(2)]
[[('term1', 0.32463402), ('term_2', 0.3211307), ('term4', 0.18077125)],
[('term3', 0.3250474), ('term4', 0.31788236), ('term_2', 0.18025273)]]
在现代Gensim中,无需解析或使用令牌ID地图。单线是
list(w for w,_ in lda.show_topic(topicid=7,topn=10))
使用show_topc
,该CC_3单词每topicid
,例如:
['change',
'https',
'#leadershipofchange',
'#changemanagement',
'#cx',
'leadership',
'management',
'customer',
'experience',
'#customerexperience']
注意:根据gensim==4.3
。