我很难理解使用scikit的这两个步骤是否相似:
1) compute_importance=True的RandomForestClassifier,并手动选择返回的前10个特征,以进一步创建由10个特征组成的新训练集,并进行训练和进一步预测。
2) RandomforestClassifier,max_feature=10compute_importance=True,并进一步使用rf.fit_transform(训练,目标)和rf.fit(训练,靶)
max_features=10
意味着从整个集合中选择一个由10个特征组成的新的随机子集作为拆分的候选者。换句话说,每次都会考虑不同的10个特征。所有原始特征可能最终仍会在同一棵树的某个地方使用,从而也会在整个森林中使用。选择10个最重要的功能并重新训练意味着在任何地方都使用相同的10个功能,这通常不是一个好主意。