(Python Google Colab)如何清除不需要的符号以及如何计算文本中大多数现有单词并输出它


!pip install wikipedia
import re
import nltk
from nltk.probability import FreqDist
import nltk
nltk.download('punkt')
import wikipedia
wikipedia.set_lang("en")
a=wikipedia.page("bitcoin")
print(a.content)
a.content_frqunce = FreqDist(a.content)
a.content_count = len(a.content)
a.content_unique_count = len(set(a.content))
print(a.content)
print(a.content_unique_count)
print(a.content_count)
print(a.content_frqunce)

我想计算存在的最多的单词我想把它们写在一个列表中我的意思是我想输出文本中存在最多的10个单词以正确的排列我还想清除一些符号和空格我希望我能清楚正确地解释我的问题^w^

您可以使用counter from collections来获取频率上的有序数据结构。

from collections import Counter
a = Counter(['a', 'a', 'b', 'd', 'a', 'a', 'b', 'c'])
print(a)
#Counter({'a': 4, 'b': 2, 'd': 1, 'c': 1})

相关内容

  • 没有找到相关文章

最新更新