SCIkit数据集存储在计算机上的什么位置?



我运行了以下代码

from sklearn.datasets import fetch_20newsgroups

第一次收到消息花了几分钟:

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)

下一次它是即时的,所以python显然已经把数据集拉到了我的笔记本电脑上。 这像一个csv文件吗? 存储在哪里? 以及如何将其保存到特定文件夹中,以便在重新启动计算机时不必再次下载它

如果未指定,则默认情况下,fetch_20newsgroups下载的数据存储在"~/scikit_learn_data"子文件夹中。

data_home:可选,默认值:无

指定数据集的下载和缓存文件夹。如果没有, 所有Scikit-learn数据存储在"~/scikit_learn_data"子文件夹中。

您可以通过设置data_home参数来更改它:

dataset = fetch_20newsgroups(data_home=<Another Directory>)

对于现有数据集: 根据GitHub存储库的数据似乎保存在scikit模块路径旁边:

def load_boston(return_X_y=False):
# ...
module_path = dirname(__file__)
fdescr_name = join(module_path, 'descr', 'boston_house_prices.rst')
with open(fdescr_name) as f:
descr_text = f.read()
data_file_name = join(module_path, 'data', 'boston_house_prices.csv')

所以寻找:<module>datafilename

对于获取的数据:

请参阅此 scikit 文档页面,引用:

sklearn.datasets.fetch_20newsgroups(
data_home=None, # this is what you're looking for
subset=’train’,
categories=None,
shuffle=True,
random_state=42,
remove=(),
download_if_missing=True)

data_home:可选,默认值:无

指定数据集的下载和缓存文件夹。如果为 None,则所有 scikit-learn 数据存储在~/scikit_learn_data子文件夹中。

最新更新