GAN最初由IJ Goodfellow提出,使用以下损失函数,
D_loss = - log[D(X)] - log[1 - D(G(Z))]
G_loss = - log[D(G(Z))]
因此,鉴别器试图最小化D_loss,生成器试图最小化G_loss,其中X和Z分别是训练输入和噪声输入。D(.) 和 G(.) 分别是鉴别器和生成器神经网络的映射。
正如原始论文所说,当GAN被训练了几个步骤时,它达到了一个点,即生成器和鉴别器都无法改进,并且D(Y)在任何地方都是0.5,Y是判别器的一些输入。在这种情况下,当GAN经过足够的培训到这一点时,
D_loss = - log(0.5) - log(1 - 0.5) = 0.693 + 0.693 = 1.386
G_loss = - log(0.5) = 0.693
那么,为什么我们不能使用D_loss值和G_loss值作为评估GAN的指标呢?
如果两个损失函数偏离了这些理想值,那么GAN肯定需要训练好,或者架构需要设计好。正如原始论文中的定理 1 所讨论的那样,这些是D_loss和G_loss的最优值,但为什么不能将这些值用作评估指标呢?
我认为这个问题属于交叉验证,但无论如何:
我为此挣扎了很长一段时间,想知道为什么没有问这个问题。 以下是我目前所处的位置。不确定它是否会帮助你,但这是我的一些直觉。
G 和 D 损失是故障案例的良好指标...
当然,如果G损失是一个非常大的数字,而D为零,那么你的GAN中没有发生任何好事。
。但不是很好的绩效指标。
我训练了一堆 GAN,除了非常简单的例子之外,几乎从未见过"0.5/0.5 案例"。大多数时候,当输出 D(x) 和 D(G(z))(因此损失)或多或少稳定时,您会很高兴。因此,不要将这些值视为"黄金标准"。
我缺少的一个关键直觉是同时进行G和D训练。一开始,G确实不擅长生成东西,但D在区分它们方面也非常糟糕。随着时间的流逝,G变得更好,但D也变得更好。所以经过许多时代,我们可以认为D真的很擅长区分真假。因此,即使 G 只有 5% 的时间"愚弄"D(即 D(x)=0.95 和 D(G(z))=0.05),那么这可能意味着 G 实际上相当不错,因为它有时愚弄了一个非常好的鉴别器。
如您所知,除了目前查看图像质量之外,没有可靠的图像质量指标,但我发现对于我的用例,G 可以产生出色的图像,而只有几%的时间愚弄 D。
这种同时训练的关联是训练开始时发生的事情:你可以让 D(X)=0.5 和 D(G(Z))=0.5,并且仍然让 G 产生几乎随机的图像:只是 D 还不够好,无法将它们与真实图像区分开来。
我看到你发布这个问题已经几个月了。如果你在此期间获得了直觉,我会很高兴听到它!