scikit - RandomForestClassifier query



我很难理解使用scikit的这两个步骤是否相似:

1) compute_importance=True的RandomForestClassifier,并手动选择返回的前10个特征,以进一步创建由10个特征组成的新训练集,并进行训练和进一步预测。

2) RandomforestClassifier,max_feature=10compute_importance=True,并进一步使用rf.fit_transform(训练,目标)和rf.fit(训练,靶)

max_features=10意味着从整个集合中选择一个由10个特征组成的新的随机子集作为拆分的候选者。换句话说,每次都会考虑不同的10个特征。所有原始特征可能最终仍会在同一棵树的某个地方使用,从而也会在整个森林中使用。选择10个最重要的功能并重新训练意味着在任何地方都使用相同的10个功能,这通常不是一个好主意。

相关内容

  • 没有找到相关文章

最新更新