不平衡张量流模型的权重策略

我想从一个不平衡的数据集训练一个tensorflow DNNC分类器模型。每个样本都有一个"质量"值，表示样本的相对相关性。我想我可以用权重来表示这种相关性。我读到权重特征与损失相乘。在这种情况下，"好"样品的重量可能较低。准确吗？

"好样品"是什么意思？在不平衡的情况下，你会有两种样本——一种数量较多，另一种数量较少。

重量多的应该少一些，重量少的应该多一些。我们基本上是通过夸大样本的损失，使模型更加关注少量样本。

正如Pankaj Kabra正确指出的那样，不清楚你对"好"样本的意思。如果你想给予它们更多的重要性，你应该更多地重视这些例子；相反，如果这些是数量最多的样本，并且你不希望网络仅仅因为样本数量多而对它们产生偏见，那么你需要减少它们的权重。

最经典的方法有两种：

根据其类别对每个样本的重量损失进行倍数计算。这意味着，如果你在评估数量较多的类的损失，你必须乘以其值，以获得较小的权重；反之亦然，如果你处理的是最小的类，那么权重必须更大。例如，可以使用计算为：w_class = 1.0/(number_of_samples_for_this_class)的权重
样本平衡的小批量，其中两个类的数量相同

相关内容