我有多个文本文件,因此每行完全有一个文档。我想对文本进行基本分析,并回答以下问题:
- UMIGRAMS的数量
- 文档的平均长度
- DOC的长度SD
等。
nltk/sklearn中是否有功能?我不介意其他见解。
1)umigram的#
from itertools import tee, izip
def bigrams(iterable):
a, b = tee(iterable)
next(b, None)
return izip(a, b)
with open("data.txt", 'r') as f:
for line in f:
words = line.strip().split()
uni = words
bi = bigrams(words)
print uni
print list(bi)
2)句子的平均长度
sents = text.split('.')
avg_len = sum(len(x.split()) for x in sents) / len(sents)
3)自己做!没有API。