主节点上的决策树样本计数与观测值总数不匹配



我有一个包含248个观测值的数据集,我试图从我放在一起的随机森林模型中可视化决策树。下面的文章建议根节点中的样本值是数据集中样本(观测值)的值。然而,我的决策树的根节点的样本值不等于248,而是等于184,如下图所示。

https://towardsdatascience.com/scikit -学习-决策树-解释- 803 f3812290d

样本值错误的决策树根节点

我的模型代码是:

rf = RandomForestClassifier(max_depth=3,
n_estimators=30,
random_state=42,
bootstrap=False)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

,我的树的代码是:

fig = plt.figure(figsize=(20, 10))
fig = tree.plot_tree(rf.estimators_[13], 
feature_names=x_df.columns,
class_names=y_train,
filled=True, 
impurity=True, 
rounded=True,
proportion=False)
fig = fig

不幸的是,由于NDA,我不能共享数据,但是有人知道为什么树的根节点上的样本字段不等于248吗?

根节点上的样本量为198,因为树是基于训练数据,而不是整个数据集。

最新更新