如何将外部数据集调用到scikit-learn中



例如:

(1)https://archive.ics.uci.edu/ml/machine-learning-databases/annealing/anneal.data

(2)http://data.worldbank.org/topic

如何将这样的外部数据集调用到scikit-learn中并对其进行处理?


我在scikit-learn中看到的唯一一种数据集调用是通过如下命令:

from sklearn.datasets import load_digits
digits = load_digits()

您需要学习一点pandas,这是python中的数据帧实现。然后你可以输入

import pandas
my_data_frame = pandas.read_csv("/path/to/my/data")

要从数据框架创建模型矩阵,我推荐使用patsy库,它实现了一种模型规范语言,类似于R公式

import patsy
model_frame = patsy.dmatrix("my_response ~ my_model_fomula", my_data_frame)

则模型框架可以作为X传递到各种sklearn模型中。

只需运行以下命令并将名称'EXTERNALDATASETNAME'替换为数据集的名称

import sklearn.datasets 
data = sklearn.datasets.fetch_EXTERNALDATASETNAME()

相关内容

  • 没有找到相关文章

最新更新