无法通过 Python 代码下载 20 个新闻组数据

我正在尝试在 20news 组上运行分类演示，我在这里下载 py 文件(http://scikit-learn.org/stable/auto_examples/text/document_classification_20newsgroups.html#sphx-glr-auto-examples-text-document-classification-20newsgroups-py(并像往常一样运行 python 代码，但得到以下错误，说存在网络连接超时错误，我有点困惑，因为我可以从提供的数据文件下载数据文件URL(https://ndownloader.figshare.com/files/5975967(，有谁知道如何解决这个问题？无论如何，我可以使用手动下载的数据文件吗？

环境：蟒蛇 3.6安南康达 5.0.1

引用

scikit-learn文档：

sklearn.datasets.fetch_20newsgroups函数是一个数据获取/缓存函数，它从原来的 20 个新闻组网站下载数据存档，提取 ~/scikit_learn_data/20news_home 文件夹中的存档内容，并在训练集或测试集文件夹或两者上调用sklearn.datasets.load_files。

您只需将手动下载的文件解压缩到指定文件夹即可使用该文件。

或者，您可以在调用函数时通过传递data_home='/path/to/data'来指定数据文件夹fetch_20newsgroups 。将函数调用更改为如下所示：

data_train = fetch_20newsgroups(data_home='/path/to/data',
                                subset='train', categories=categories,
                                shuffle=True, random_state=42,
                                remove=remove)
data_test = fetch_20newsgroups(data_home='/path/to/data',
                               subset='test', categories=categories,
                               shuffle=True, random_state=42,
                               remove=remove)

相关内容

最新更新

热门标签：