神经网络与狗和猫的欠拟合

不必进入它的代码，而是更多地关注原则，我有一个关于我认为什么是欠拟合的问题。

如果我正在训练一个网络来识别图像是否是狗的真假，并且我可能有 40,000 张图像，其中所有狗图像都标记为 1，所有其他图像都标记为 0 - 我能做些什么来确保准确性，以便，如果这些图像中只有 5,000 张是狗，网络不会从训练中"懒惰"行事，并且还将狗标记为接近 0 而不是 1？

例如，这个问题的主要目的是能够高精度地识别图像是否真的是狗，而不必真正关心其他图像，除了它们不是狗的事实。此外，我希望能够保留猜测正确的概率，因为这对我的目的非常重要。

我唯一能想到的两件事是：

但我认为第二种选择可能会让狗成为测试数据的输出机会不成比例，这会破坏这个网络的准确性和整个目的。

我相信这之前已经解决过，所以即使是正确方向的一点也将不胜感激！

因此，您有一个二元分类任务，其中两个类在数据集中以不同的频率出现。大约 1/8 是"狗"，7/8 是"没有狗"。

为了避免对一个或另一个类的学习有偏见，重要的是对训练、验证和测试数据进行分层，以便将这些分数保留在每个子集中。
说你想"保留猜测正确的概率"——我假设你的意思是你想评估"狗性"概率作为输出变量。这是一个简单的softmax输出层，有两个输出：第一个是"狗"，第二个是"不是狗"。这是解决分类问题的典型方法，无论您需要区分多少类。

相关内容