在查看这个问题scikit learn - feature importance calculation in decision trees时,我很难理解decision Tree的值列表。例如,顶部节点的value=[1,3]。1和3到底是多少?这是否意味着如果X[2]<= 0.5,那么1为假,3为真?如果是,则值列表为[false case number, true case number]。如果是,那么叶节点的值列表呢?
- 为什么三个右叶子有[0,1]而一个左叶子有[1,0]? [1,0]或[0,1]到底是什么意思?1假0真还是0假1真?但是叶子上没有条件(比如<=.5)。那么什么是真的,什么是假的呢?
非常感谢您的建议!
value=[1,3]意味着,在树的这片叶子中(在应用过滤器x[2] <=0.5之前),您有:
- 0类样品1个
- 3类样品
一旦你沿着树向下走,你就在过滤。您的目标是拥有完美分离的类。所以你倾向于得到像value=[0,1]这样的东西,这意味着在应用了所有过滤器之后,你有0个类别0的样本和1个类别1的样本。
您还可以检查值的总和是否总是与样本相似。这是完全有意义的,因为值只告诉你到达这片叶子的所有样本是如何分布的。