小贝子编程

对一个文档进行矢量化计数，然后取平均值

本文关键字：矢量化然后平均值文档一个 python nlp scikit-learn
更新时间 : 2023-08-22
英文 : Count vectorizing into bigrams for one document, and then taking the average

我正在尝试编写一个函数，该函数接受一个文档，count向量化该文档的双字符。它不应该有任何零，因为我一次只对一个文档执行此操作。然后我想取这些数字的平均值，以获得双字母重复的感觉。

这段代码有问题吗?

def avg_bigram(x):
    bigram_vectorizer =  CountVectorizer(stop_words='english', ngram_range=(2,2))
    model = bigram_vectorizer.fit_transform(x)
    vector = model.toarray()
    return vector.mean()

我用我知道包含多个停止词的文本测试了它，结果是

"空词汇;也许文档只包含停止词"

谢谢你的帮助!

CountVectorizer期望一个语料库，而您正在给出单个文档。把你的医生包在list里。例句:

model = bigram_vectorizer.fit_transform([x])

对一个文档进行矢量化计数，然后取平均值

相关内容

最新更新

热门标签：