无法通过 Python 代码下载 20 个新闻组数据



我正在尝试在 20news 组上运行分类演示,我在这里下载 py 文件(http://scikit-learn.org/stable/auto_examples/text/document_classification_20newsgroups.html#sphx-glr-auto-examples-text-document-classification-20newsgroups-py(并像往常一样运行 python 代码,但得到以下错误,说存在网络连接超时错误,我有点困惑,因为我可以从提供的数据文件下载数据文件URL(https://ndownloader.figshare.com/files/5975967(,有谁知道如何解决这个问题?无论如何,我可以使用手动下载的数据文件吗?

环境:蟒蛇 3.6安南康达 5.0.1

引用

scikit-learn文档:

sklearn.datasets.fetch_20newsgroups函数是一个数据获取/缓存函数,它从原来的 20 个新闻组网站下载数据存档,提取 ~/scikit_learn_data/20news_home 文件夹中的存档内容,并在训练集或测试集文件夹或两者上调用sklearn.datasets.load_files

您只需将手动下载的文件解压缩到指定文件夹即可使用该文件。


或者,您可以在调用函数时通过传递data_home='/path/to/data'来指定数据文件夹fetch_20newsgroups 。将函数调用更改为如下所示:

data_train = fetch_20newsgroups(data_home='/path/to/data',
                                subset='train', categories=categories,
                                shuffle=True, random_state=42,
                                remove=remove)
data_test = fetch_20newsgroups(data_home='/path/to/data',
                               subset='test', categories=categories,
                               shuffle=True, random_state=42,
                               remove=remove)

最新更新