Scikit-Learn中的Load_Files未加载目录中的所有文件



我有一个名为'电子邮件'的文件夹,有两个子文件夹,以对应于它们所拥有的文件分类的标签命名(垃圾邮件或notspam电子邮件,都是.txt文件)。两个子文件夹中有3000个文件。使用load_files:

data = load_files('emails', shuffle='False')
print len(data)
print len(data.target)

此打印为" 5",然后是" 3000"。如果发现3000个分类标签,数据的长度只能是5?

您的数据存储在 data.data中,而target则存储在 data.target中。改用print(len(data.data))

load_files()只需返回一个简单的数据包装器sklearn.datasets.base.Bunch即可。因此,data处于这种格式:

{
'DESCR': None,
 'data': [],
 'filenames': array(),
 'target': array(),
 'target_names': []
}

这就是为什么len(data)返回5。

希望这会有所帮助!

相关内容

  • 没有找到相关文章

最新更新