我正在尝试编写一个函数,该函数接受一个文档,count向量化该文档的双字符。它不应该有任何零,因为我一次只对一个文档执行此操作。然后我想取这些数字的平均值,以获得双字母重复的感觉。
这段代码有问题吗?
def avg_bigram(x):
bigram_vectorizer = CountVectorizer(stop_words='english', ngram_range=(2,2))
model = bigram_vectorizer.fit_transform(x)
vector = model.toarray()
return vector.mean()
我用我知道包含多个停止词的文本测试了它,结果是
"空词汇;也许文档只包含停止词"
"谢谢你的帮助!
CountVectorizer
期望一个语料库,而您正在给出单个文档。把你的医生包在list
里。例句:
model = bigram_vectorizer.fit_transform([x])