我是Python和机器学习的新手。我得到了包含581012条记录和54列的数据集。我正试图将数据分割成80/20。80%用于培训,20%用于测试。我使用GridSearchCV进行交叉验证并找到最佳参数。由于数据太大,我执行了一天多的应用程序,但是没有得到结果。我认为有没有办法知道分类器允许的训练集的最大大小?下面是执行代码
parameters = {'max_depth' :range(1,21)}
print parameters
clf = GridSearchCV(tree.DecisionTreeClassifier(), parameters, cv=10, n_jobs=-1)
clf.fit(X,y)
tree_model = clf.best_estimator_
import pickle
s = pickle.dumps(tree_model)
print(clf.best_score_, clf.best_params_)
我认为您需要在培训前对数据库进行修剪。您也可以尝试WEKA工具。http://www.cs.waikato.ac.nz/ml/weka/documentation.html