如何在给定单词的词袋词汇表中获取单词的 id?



我在一堆消息上利用了词袋模型,如下所示:

    bow_transformer = CountVectorizer(analyzer=split_into_lemmas).fit(messages['message'])
    B4 = bow_transformer.transform([msg4])
    print B4
    print bow_transformer.get_feature_names()[6736]
    print bow_transformer.get_feature_names()[8013]

(0, 1158) 1
(0, 1899) 1
(0, 2897) 1
(0, 2927) 1
(0, 4021) 1
(0, 6736) 2
(0, 7111) 1
(0, 7698) 1
(0, 8013) 2

u

我需要的是给出像"说"这样的词提取其 ID "6736"(反之亦然bow_transformer.get_feature_names()[6736]正在捐赠的东西)?!

您应该使用 vocabulary_ 属性:

>>> bow_transformer.vocabulary_.get('say')
6736

相关内容

  • 没有找到相关文章

最新更新