带有char_wb的 Tf-idf 忽略了自定义预处理器



我有

import nltk
from nltk.stem.snowball import GermanStemmer
def my_tokenizer(doc):
   stemmer= GermanStemmer()
   return([stemmer.stem(t.lower()) for t in nltk.word_tokenize(doc) if 
   t.lower() not in my_stop_words])
text="hallo df sdfd"
singleTFIDF = TfidfVectorizer(analyzer='char_wb', ngram_range= 
(4,6),preprocessor=my_tokenizer, max_features=50).fit([str(text)])

从文档中可以清楚地看出,自定义 toenizer 仅适用于 analyzer=word。

我得到

Traceback (most recent call last):
  File "TfidF.py", line 95, in <module>
    singleTFIDF = TfidfVectorizer(analyzer='char_wb', ngram_range=(4,6),preprocessor=my_tokenizer, max_features=50).fit([str(text)])
  File "C:Userschris1Anaconda3envsmasterlibsite-packagessklearnfeature_extractiontext.py", line 185, in _char_wb_ngrams
    text_document = self._white_spaces.sub(" ", text_document)
TypeError: expected string or bytes-like object
你必须

连接单词,然后返回一个字符串。试试这个!

return(' '.join ([stemmer.stem(t.lower()) for t in nltk.word_tokenize(doc) if 
   t.lower() not in my_stop_words]))

相关内容

  • 没有找到相关文章

最新更新