例如:
(1)https://archive.ics.uci.edu/ml/machine-learning-databases/annealing/anneal.data
或
(2)http://data.worldbank.org/topic
如何将这样的外部数据集调用到scikit-learn中并对其进行处理?
我在scikit-learn中看到的唯一一种数据集调用是通过如下命令:
from sklearn.datasets import load_digits
digits = load_digits()
您需要学习一点pandas,这是python中的数据帧实现。然后你可以输入
import pandas
my_data_frame = pandas.read_csv("/path/to/my/data")
要从数据框架创建模型矩阵,我推荐使用patsy库,它实现了一种模型规范语言,类似于R
公式
import patsy
model_frame = patsy.dmatrix("my_response ~ my_model_fomula", my_data_frame)
则模型框架可以作为X
传递到各种sklearn模型中。
只需运行以下命令并将名称'EXTERNALDATASETNAME'替换为数据集的名称
import sklearn.datasets
data = sklearn.datasets.fetch_EXTERNALDATASETNAME()