对决策树进行单热编码后如何解释特征的重要性

我知道决策树有Gini计算的feature_importance属性，它可以用来检查哪些特征更重要。

然而，对于scikit-learn或Spark中的应用程序，它只接受数字属性，因此我必须将字符串属性转换为数字属性，然后在其上进行one-hot编码器。当特征放入决策树模型时，它是0-1编码而不是原始格式，我的问题是，如何解释特征对原始属性的重要性?当我试图解释功能的重要性时，我应该避免单热编码器吗?

谢谢。

从概念上讲，您可能希望按照排列重要性使用一些东西。其基本思想是，使用原始数据集，随机洗牌每列的值，每次1个。然后，使用模型对扰动数据进行评分，并将性能与原始性能进行比较。如果一次处理一个列，您可以通过销毁每个变量来评估性能损失，将其索引到损失最大的变量(将变为1或100%)。如果您可以在1热编码之前对原始数据集执行此操作，那么您将获得将它们总体分组在一起的重要性度量。

相关内容

最新更新

热门标签：