无法在Scikit-Learn中获取20个新闻组数据集



我试图使用下面的代码获取这些数据集。

from sklearn.datasets import fetch_20newsgroups
twenty_train = fetch_20newsgroups(subset='train')

然而,在此之后发生了一个错误。然后程序被终止。

No handlers could be found for logger "sklearn.datasets.twenty_newsgroups"
Killed

我试着像这样手动加载这些文件。

twenty_train = load_files('/root/scikit_learn_data/20news_home/20news-bydate-train')

twenty_train = load_files('/root/scikit_learn_data/20news_home/20news-bydate-train',encoding='latin1')

只有前者有效。

看起来scikit-learn正在尝试报告一些错误,而您没有配置输出的位置。当我尝试你的代码时,我也遇到了同样的问题。我通过设置我的记录器来修复它:

import logging
logging.basicConfig()

现在尝试加载数据集给我以下警告:

WARNING:sklearn.datasets.twenty_newsgroups:Download was incomplete, downloading again.
WARNING:sklearn.datasets.twenty_newsgroups:Downloading dataset from http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz (14 MB)

在您的系统上完成下载(14 MB)之后,您将在twenty_train变量中加载数据集。

希望这对你有帮助!

相关内容

  • 没有找到相关文章

最新更新