使用 sklearn.feature_extraction.text CountVectorizer 时从文件中读取文档



我能够像文档中的示例一样使用代码,其中 fit_transform() 函数的输入是一个句子列表,即:

corpus = [
   'this is the first document',
   'this is the second second document',
   'and the third one',
   'is this the first document?'
]

X = vectorizer.fit_transform(语料库)

并获取预期数据。 但是当我尝试用文件列表或文档建议的文件对象替换语料库时,它可以是:

" 适合(raw_documents, y=无)

Learn a vocabulary dictionary of all tokens in the raw documents.
Parameters :    
raw_documents : iterable
    An iterable which yields either str, unicode or file objects.
Returns :   
self :

"

.. 所以我认为我对管道的理解中缺少一些东西。 给定一个我想 CountVectorize 的文件目录,我该怎么做?如果我尝试提供文件对象列表,作为 [open(file,'r')] 我得到的错误消息是文件对象没有较低的功能。

将矢量化的 input 构造函数参数设置为 filenamefile 。其默认值为 content ,这假定您已将文件读入内存。

相关内容

  • 没有找到相关文章

最新更新