迭代地实例化Sklearn模型



我正在尝试迭代地创建、训练和测试sklearn模型:

for min_samples_leaf in [1, 2, 3, 5]:
for min_samples_split in [2, 3, 4, 10]:
for n_estimators in [200, 500, 1000, 1500]:
classifier = RandomForestClassifier(bootstrap=True, min_samples_leaf=min_samples_leaf, min_samples_split=min_samples_split, n_estimators=n_estimators, random_state=6, n_jobs=4)
classifier.fit(X_train, y_train)
print(accuracy_score(y_validate, classifier.predict(X_validate)))

然而,每次训练classifier并根据验证集打印结果时,准确度分数是相同的。

我的问题是(1)为什么会发生这种情况?(2)采取这种做法的正确方法是什么?

编辑:可能需要注意的是,我还以其他方式测量准确性以及准确性分数,并且每次迭代的结果都是完全相同的。

这是因为您正在训练最后一个classifier变量值,这恰好是循环的最后一个配置。

要解决这种情况,我建议您采用两种方法:

  1. classifier赋值后立即运行classifier.fit()函数,并以最适合您的方式将结果存储到数组/字典中。
  2. 在第一个循环的顶部创建一个数组(classifiers =[]),并将您配置的每个新分类器附加到其中,然后迭代这样的列表,并适合每个分类器。

更进一步

你正在尝试做的是一个超参数搜索,这不是最可扩展的方式。

你可以看看这篇博客文章,了解如何正确地做到这一点:https://towardsdatascience.com/a-conceptual-explanation-of-bayesian-model-based-hyperparameter-optimization-for-machine-learning-b8172278050f

如果您很着急,需要立即了解如何实现超参数调优,并且需要一个示例,请参阅上述博客条目的笔记本。

https://github.com/WillKoehrsen/hyperparameter-optimization/blob/master/Bayesian%20Hyperparameter%20Optimization%20of%20Gradient%20Boosting%20Machine.ipynb