H2O 深度学习:输入变量影响/系数是多少?



我试图用h2o深度学习模型预测美国机场的出租车时间:

#Deep learning neural network
deep<-h2o.deeplearning(
training_frame = train,
validation_frame = valid,
x=predictors,
y=target,
#distribution = "gaussian",
#loss = "Automatic",
hidden=c(200,200,200),
epochs = 50,
#activation="Rectifier",
stopping_metric="deviance",
stopping_tolerance=1e-4,      # stops when deviance does not improve by 
>=0.0001 for 5 scoring events
)
summary(deep)

这是截断的变量重要性列表:

可变重要性:

variable relative_importance scaled_importance percentage
1     Event_1.Fog            1.000000          1.000000   0.024205
2    Event_2.Rain            0.983211          0.983211   0.023799
3      CARRIER.NK            0.946493          0.946493   0.022910
4 Event_1.noevent            0.936131          0.936131   0.022659
5     cos_deptime            0.934558          0.934558   0.022621

我知道"重要性"是按变量的相对影响计算的,但我怎么知道该变量是否有助于增加或减少出租车出站时间?h2o 是否用符号显示每个变量的系数? 我 http://h2o-release.s3.amazonaws.com/h2o/latest_stable_doc.html 读过这个文档,但它没有解释,比如说,可变的雾或雨是增加还是减少滑行时间以及多少。

H2O 深度学习(或 RF 或 GBM,就此而言(的变量重要性与 GLM 中的系数幅度(可以是正数或负数(的解释不同,这就是您所描述的。 它可以解释为"此变量在预测结果中的重要性",并且度量值相对于模型中的其他变量。

如H2O深度学习文档所述,我们使用一种称为Gedeon方法的技术来计算此度量。 (射频和GBM使用不同的方法(。

最新更新