主节点上的决策树样本计数与观测值总数不匹配

我有一个包含248个观测值的数据集，我试图从我放在一起的随机森林模型中可视化决策树。下面的文章建议根节点中的样本值是数据集中样本(观测值)的值。然而，我的决策树的根节点的样本值不等于248，而是等于184，如下图所示。

https://towardsdatascience.com/scikit -学习-决策树-解释- 803 f3812290d

样本值错误的决策树根节点

我的模型代码是:

rf = RandomForestClassifier(max_depth=3,
n_estimators=30,
random_state=42,
bootstrap=False)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)

，我的树的代码是:

fig = plt.figure(figsize=(20, 10))
fig = tree.plot_tree(rf.estimators_[13], 
feature_names=x_df.columns,
class_names=y_train,
filled=True, 
impurity=True, 
rounded=True,
proportion=False)
fig = fig

不幸的是，由于NDA，我不能共享数据，但是有人知道为什么树的根节点上的样本字段不等于248吗?

根节点上的样本量为198，因为树是基于训练数据，而不是整个数据集。

相关内容

最新更新

热门标签：