我的任务是检查和比较其他人开发的两个已经训练好的ML模型。模型的差异在于不同的输入数据集。第一个是根据2018年的数据训练的，第二个是根据2019年的数据。它是一个核心的RandomForestClassifier模型，在sklearn.pipeline模块中进行训练。问题是，中间有一个CalibratedClassifierCV，它使我对随机林模型本身的访问变得复杂。所以我对这个模型没有深入的了解，对我来说它就像一个黑盒子。两种情况下的管道是相同的。

编辑：在创建管道的过程中添加了可重复的步骤，但没有数据集：

from sklearn.ensemble import RandomForestClassifier
from sklearn.calibration import CalibratedClassifierCV, calibration_curve
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
RF_clf = RandomForestClassifier()
pipeline = Pipeline([('scaling', StandardScaler(with_mean=False)),
('classifier', CalibratedClassifierCV(base_estimator=RF_clf, cv=2, method='sigmoid'))])
# Further steps not replicated from code because of additional custom made training and fitting functions but these are the steps:
# fit model on train data
# predict model on test data

作为下一步，我想做的或看到的是，从我从磁盘上以model.pkl文件的形式读取的已经训练好的模型中，有一个.feature_importance_模型，因为随机森林本身就支持它。然后我会比较这些年中最重要功能的分布。但它是无法访问的。

以下是我对模型检查的了解：

这些工作：

pipeline.named_steps
pipeline.named_steps['classifier']
CalibratedClassifierCV(base_estimator=RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
max_depth=None, max_features=1, max_leaf_nodes=None,
min_impurity_decrease=0.0, min_impurity_split=None,
min_samples_leaf=1, min_samples_split=2,
min_weight_fraction_leaf=0.0, n_estimators=100, n_jobs=1,
oob_score=False, random_state=0, verbose=1, warm_start=False),
cv=2, method='sigmoid')

但我不能更深入。

这个已经不起作用了：

pipeline.named_steps['classifier']['base_estimator']
TypeError: 'CalibratedClassifierCV' object is not subscriptable

我还尝试了eli5库来查看一些信息，但似乎不支持CalibratedClassifierCV：

eli5.explain_weights(pipeline_rf.named_steps['classifier'])
Error: estimator CalibratedClassifierCV(base_estimator=RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini', max_depth=None, max_features=1, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=100, n_jobs=1, oob_score=False, random_state=0, verbose=1, warm_start=False), cv=2, method='sigmoid') is not supported

你对如何深入了解CalibratedClassifierCV并真正了解BaseEstimator模型的功能重要性有一些经验吗？谢谢你的建议。

访问底层RandomForestClassifier的feature_importances_的简短示例。

from sklearn.calibration import CalibratedClassifierCV
from sklearn.datasets import make_classification
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline
from sklearn import set_config
set_config(print_changed_only=True)
X, y = make_classification()
rf = RandomForestClassifier().fit(X, y)
pipe = Pipeline([('classifier',
CalibratedClassifierCV(rf))]).fit(X, y)
pipe['classifier'].base_estimator.feature_importances_

如果要查找CalibratedClassifierCVs输出的比较，则需要查看calibrated_classifiers_属性。

更新：

对于sigmoid方法(默认方法(，在拟合过程中学习了两个参数(a，b(。我们可以通过以下片段提取这两个信息。

for calibrated_classifier in pipe['classifier'].calibrated_classifiers_ :
calibrator = calibrated_classifier.calibrators_[0]
print(calibrator.a_)
print(calibrator.b_)

如何检查CalibratedClassifierCV BaseEstimator参数

更新：

相关内容

最新更新

热门标签：