!pip install wikipedia
import re
import nltk
from nltk.probability import FreqDist
import nltk
nltk.download('punkt')
import wikipedia
wikipedia.set_lang("en")
a=wikipedia.page("bitcoin")
print(a.content)
a.content_frqunce = FreqDist(a.content)
a.content_count = len(a.content)
a.content_unique_count = len(set(a.content))
print(a.content)
print(a.content_unique_count)
print(a.content_count)
print(a.content_frqunce)
我想计算存在的最多的单词我想把它们写在一个列表中我的意思是我想输出文本中存在最多的10个单词以正确的排列我还想清除一些符号和空格我希望我能清楚正确地解释我的问题^w^
您可以使用counter from collections来获取频率上的有序数据结构。
from collections import Counter
a = Counter(['a', 'a', 'b', 'd', 'a', 'a', 'b', 'c'])
print(a)
#Counter({'a': 4, 'b': 2, 'd': 1, 'c': 1})