训练集和测试集之间差异的阈值是多少



训练集和测试测试之间总是存在性能差异。我想知道这种差异的门槛是多少,哪个是可以接受的,哪个是可以接受的?例如,训练的分数可能是 87%,测试的分数是 83%。4%的差异可能是可以接受的。但是,如果87%用于训练和测试,则仅为60%。这 20% 可能表示过度拟合问题。所以我想知道这是否有任何门槛?

在校舍之外,我的意思是在应用设置中,阈值由上下文决定。可以创建一种在 99% 的时间内正确预测的算法。如果我们是一家银行,你赚钱了吗?你不知道。该算法可以正确预测每一笔一美元的贷款,并且总是错过一千万美元的贷款。所以这个算法的准确性,精度,召回率,F分数...在这种情况下没有任何意义。从业务或应用程序"询问"向后工作。这决定了阈值容差。

最新更新