我已经为欺诈预测创建了H20随机森林模型。现在使用预测功能进行测试数据进行评分。我从预测函数输出中获得以下数据框。
现在,对于第二个记录,它预测了1,但P1的概率远小于P0。我们可以用于我的欺诈预测模型的正确概率分数(P0/1)和分类是多少?
如果这些不是正确的概率,则使用参数(calibrate_model = true)计算出的校准概率将提供正确的概率?
nfolds=5
rf1 = h2o.estimators.H2ORandomForestEstimator(
model_id = "rf_df1",
ntrees = 200,
max_depth = 4,
sample_rate = .30,
# stopping_metric="misclassification",
# stopping_rounds = 2,
mtries = 6,
min_rows = 12,
nfolds=3,
distribution = "multinomial",
fold_assignment="Modulo",
keep_cross_validation_predictions=True,
calibrate_model = True,
calibration_frame = calib,
weights_column = "weight",
balance_classes = True
# stopping_tolerance = .005)
)
predict p0 p1
1 0 0.9986012 0.000896514
2 1 0.9985695 0.000448676
3 0 0.9981387 0.000477767
预测标签基于阈值,所使用的阈值通常基于最大化F1分数的阈值。请参阅以下文章以了解有关如何解释概率结果的更多信息。
详细介绍了如何在此处和此处找到校准框架和模型工作。