对一个文档进行矢量化计数,然后取平均值



我正在尝试编写一个函数,该函数接受一个文档,count向量化该文档的双字符。它不应该有任何零,因为我一次只对一个文档执行此操作。然后我想取这些数字的平均值,以获得双字母重复的感觉。

这段代码有问题吗?

def avg_bigram(x):
    bigram_vectorizer =  CountVectorizer(stop_words='english', ngram_range=(2,2))
    model = bigram_vectorizer.fit_transform(x)
    vector = model.toarray()
    return vector.mean()

我用我知道包含多个停止词的文本测试了它,结果是

"空词汇;也许文档只包含停止词"

"

谢谢你的帮助!

CountVectorizer期望一个语料库,而您正在给出单个文档。把你的医生包在list里。例句:

model = bigram_vectorizer.fit_transform([x])

相关内容

  • 没有找到相关文章

最新更新