Scikit学习-使用数据集



阅读了一些堆叠式的问题,我找不到我想要的东西,至少,当我阅读各种帖子时,我不认为是这样。

我有一些训练数据设置,如这里所述因此,我使用sklearn.datasets.load_files来读取这些数据,因为它在设置时非常匹配。

但我的文件已经被tsv作为单词包了(也就是说,每一行都是一个单词,它的频率计数由一个标签分隔)。

老实说,我不知道该怎么办。load_files拉入的数据被设置为一个列表,其中每个元素都是每个文件的内容,包括换行符。我甚至不能100%确定Bunch数据类型是如何跟踪哪些文件属于哪个分类器文件夹的。

我以前在tsv中使用过scikit-learn,但它是一个包含所有数据的单个tsv文件,所以我使用panda读取它,然后使用numpy.array从中获取我需要的数据,这是我尝试做的事情之一,但我不确定如何对分类器是文件夹名称的多个文件进行处理,就像我以前使用的单个tsv文件一样,每条训练数据线都是单独的

将数据转换为可用于训练分类器的格式方面的一些帮助将不胜感激。

您可以循环浏览文件并读取它们,以创建一个字典列表,其中每个字典都包含每个文档的功能和频率。假设文件1.text:

import codecs
corpus = []
#make a loop over the files here and repeat the following
f = codecs.open("1.txt", encoding='utf8').read().splitlines()
corpus.append({line.split("t")[0]:line.split("t")[1] for line in f})
#exit the loop here
from sklearn.feature_extraction import DictVectorizer
vec=DictVectorizer()
X=vec.fit_transform(measurements)

您可以在此处找到DictVectorizer 的更多信息

相关内容

  • 没有找到相关文章

最新更新