对决策树进行单热编码后如何解释特征的重要性



我知道决策树有Gini计算的feature_importance属性,它可以用来检查哪些特征更重要。

然而,对于scikit-learn或Spark中的应用程序,它只接受数字属性,因此我必须将字符串属性转换为数字属性,然后在其上进行one-hot编码器。当特征放入决策树模型时,它是0-1编码而不是原始格式,我的问题是,如何解释特征对原始属性的重要性?当我试图解释功能的重要性时,我应该避免单热编码器吗?

谢谢。

从概念上讲,您可能希望按照排列重要性使用一些东西。其基本思想是,使用原始数据集,随机洗牌每列的值,每次1个。然后,使用模型对扰动数据进行评分,并将性能与原始性能进行比较。如果一次处理一个列,您可以通过销毁每个变量来评估性能损失,将其索引到损失最大的变量(将变为1或100%)。如果您可以在1热编码之前对原始数据集执行此操作,那么您将获得将它们总体分组在一起的重要性度量。

最新更新