相关性是否会影响 ML 模型的特征重要性



我正在构建一个具有数百个功能的 xgboost 模型。对于彼此高度相关(皮尔逊相关(的特征,我正在考虑使用特征重要性(通过增益测量(来删除重要性较低的特征。我的问题:1:相关性会影响/偏差特征重要性(通过增益衡量(吗?2:有什么好方法可以删除ML模型的高度相关的特征吗?

示例:A 的重要性 =

120,B 的重要性 = 14,Corr(A,B(=0.8。我正在考虑删除 b,因为它的重要性 = 14。但这是正确的吗?

谢谢。

相关性肯定会影响特征的重要性。这意味着,如果这些功能高度相关,那么如果您保留所有功能,则会有高度的冗余。因为两个特征是相关的,意味着一个特征的变化将改变另一个特征。所以没有必要让他们都保持正确吗?由于它们肯定是相互代表的,并且使用其中的一些,因此您可以希望对数据进行良好的分类。

因此,为了删除高度相关的特征,您可以:

  1. 使用 PCA 降低维度,或者,
  2. 使用诊断树查找重要功能,或者,
  3. 您可以从您的知识中手动选择功能(如果是可能(哪些功能更有希望帮助您进行分类您的数据,或者,
  4. 您可以手动将某些功能组合到新功能中,以便说一个特征可能会消除告诉另一个特征的必要性的特征,因为这些特征可能从该单个中推断出来特征。

最新更新