使用熊猫比较列表中的单词和频率列表中的词



我有两个包含数千个元素的频率列表,同时我还有两个包含少量元素的较小列表。这个想法是,我需要检查我的小列表中的每个元素在频率列表中出现的次数,并对它们进行比较,最后使用pandas包在表格中显示我的发现。

频率列表:

pos_freqdist = FreqDist(get_all_words(pos_train))
neg_freqdist = FreqDist(get_all_words(neg_train))

这就是pos_freqdist打印的内容(它不是简单地打印所有积极的单词,而是计算积极评论中包含的单词的频率(:

FreqDist({'the': 6737, '.': 6513, ',': 6357, 'and': 3952, 'a': 3441, 'of': 3268, 'to': 2980, 'is': 2645, 'I': 2068, 'in': 1956, ...})

我还有两个较小的列表,其中包含很少的情感词:

my_positive_word_list
my_negative_word_list

我正在成千上万的评论中检查这些词的积极/消极情绪,我已经将其分为积极和消极。

频率表真的算字典吗?元组?我不确定。

您可以像访问普通字典一样访问频率列表。在内部,它有一种字典式的结构,可以更快地访问这就是为什么您可以执行pos_freqdist['the'],它会打印6737

最新更新