使用熊猫比较列表中的单词和频率列表中的词

我有两个包含数千个元素的频率列表，同时我还有两个包含少量元素的较小列表。这个想法是，我需要检查我的小列表中的每个元素在频率列表中出现的次数，并对它们进行比较，最后使用pandas包在表格中显示我的发现。

频率列表：

pos_freqdist = FreqDist(get_all_words(pos_train))
neg_freqdist = FreqDist(get_all_words(neg_train))

这就是pos_freqdist打印的内容(它不是简单地打印所有积极的单词，而是计算积极评论中包含的单词的频率(：

FreqDist({'the': 6737, '.': 6513, ',': 6357, 'and': 3952, 'a': 3441, 'of': 3268, 'to': 2980, 'is': 2645, 'I': 2068, 'in': 1956, ...})

我还有两个较小的列表，其中包含很少的情感词：

my_positive_word_list
my_negative_word_list

我正在成千上万的评论中检查这些词的积极/消极情绪，我已经将其分为积极和消极。

频率表真的算字典吗？元组？我不确定。

您可以像访问普通字典一样访问频率列表。在内部，它有一种字典式的结构，可以更快地访问这就是为什么您可以执行pos_freqdist['the']，它会打印6737

相关内容