不平衡张量流模型的权重策略



我想从一个不平衡的数据集训练一个tensorflow DNNC分类器模型。每个样本都有一个"质量"值,表示样本的相对相关性。我想我可以用权重来表示这种相关性。我读到权重特征与损失相乘。在这种情况下,"好"样品的重量可能较低。准确吗?

"好样品"是什么意思?在不平衡的情况下,你会有两种样本——一种数量较多,另一种数量较少。

重量多的应该少一些,重量少的应该多一些。我们基本上是通过夸大样本的损失,使模型更加关注少量样本。

正如Pankaj Kabra正确指出的那样,不清楚你对"好"样本的意思。如果你想给予它们更多的重要性,你应该更多地重视这些例子;相反,如果这些是数量最多的样本,并且你不希望网络仅仅因为样本数量多而对它们产生偏见,那么你需要减少它们的权重。

最经典的方法有两种:

  1. 根据其类别对每个样本的重量损失进行倍数计算。这意味着,如果你在评估数量较多的类的损失,你必须乘以其值,以获得较小的权重;反之亦然,如果你处理的是最小的类,那么权重必须更大。例如,可以使用计算为:w_class = 1.0/(number_of_samples_for_this_class)的权重
  2. 样本平衡的小批量,其中两个类的数量相同

最新更新