我已经训练了两个机器学习模型。两者的精度略有不同。
Model-A Accuracy = 0.78 or 78%
Model-B Accuracy = 0.80 or 80%
我可以从上面的结果推断出Model-B
比Model-A
2%
好吗?
答案取决于你如何评估模型,以及目标分布。
度量
如果类的分布不平衡,则准确性对于描述泛化误差可能没有那么有用。使用 ROC AUC 或 F1 分数。
评估过程
交叉验证将为您提供比保留验证更可靠的评估指标估计。分层交叉验证对于不平衡数据集甚至更好。
如果您对验证方法有信心,那么是的,您可以按照您描述的方式迭代结果:Model-B
2%
比Model-A
好。
毕竟,这仍然只是一个估计。您可以使用自举来估计置信区间,选择阈值并推断差异在统计意义上是否显著。