我有一个名为'电子邮件'的文件夹,有两个子文件夹,以对应于它们所拥有的文件分类的标签命名(垃圾邮件或notspam电子邮件,都是.txt文件)。两个子文件夹中有3000个文件。使用load_files:
data = load_files('emails', shuffle='False')
print len(data)
print len(data.target)
此打印为" 5",然后是" 3000"。如果发现3000个分类标签,数据的长度只能是5?
您的数据存储在 data.data
中,而target则存储在 data.target
中。改用print(len(data.data))
。
load_files()
只需返回一个简单的数据包装器sklearn.datasets.base.Bunch
即可。因此,data
处于这种格式:
{
'DESCR': None,
'data': [],
'filenames': array(),
'target': array(),
'target_names': []
}
这就是为什么len(data)
返回5。
希望这会有所帮助!