我正在使用sklearn rfc。
forest.fit(training_data, y_train)
probas_test = forest.predict_proba(test_data)
我想知道是否有一种方法可以找到导致预测的每个功能的贡献/重要性。
类似的东西,但对于单个数据点级别。
forest.feature_importances_
这可以通过多种方式解决;检查http://blog.datadive.net/interpreting-random-forests/(以及一个python软件包:https://github.com/andosa/andosa/treeinterpreter)。直接选项也较少,例如
- https://arxiv.org/abs/1606.05390(实现:https://github.com/sato9hara/defragtrees)
- https://arxiv.org/abs/1611.05722(实现:https://github.com/ibcnservices/genesim)