scikit learn - 在Python Mapper Reducer中使用CountVectorizer - scikit learn - Using CountVectorizer in Python Mapper Reducer 小贝子编程网

我正在尝试使用python映射器缩减器函数应用分词器。我有以下代码，但不断收到错误。化简器在列表中输出值，我正在将值传递给矢量化器。

from mrjob.job import MRJob
from sklearn.cross_validation import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
class bagOfWords(MRJob):
def mapper(self, _, line):
    cat, phrase, phraseid, sentiment = line.split(',')
    yield (cat, phraseid, sentiment), phrase
def reducer(self, keys, values):
    yield keys, list(values)
#Output: ["Train", "--", "2"] ["A series of escapades demonstrating the adage that    what is good for the goose", "A series", "A", "series"]
def mapper(self, keys, values):
    vectorizer = CountVectorizer(min_df=0)
    vectorizer.fit(values)
    x = vectorizer.transform(values)
    x=x.toarray()       
    yield keys, (x)

if __name__ == '__main__':
    bagOfWords.run()

ValueError：空词汇表;也许文档只包含停用词

感谢您可以提供的任何帮助。

> CountVectorizer是有状态的：您需要在整个数据集上拟合相同的一个实例来构建词汇表，因此这不适合并行处理。

相反，您可以使用无状态的HashingVectorizer（无需适合，可以直接调用transform）。

scikit learn - 在Python Mapper Reducer中使用CountVectorizer

相关内容

最新更新

热门标签：