数据不平衡时只有一个输出



我有3%标记的数据,而97%的数据标记为否。这是一个连续的数据流,因此我认为我不能强制重复数据。我正在使用LSTM,其中输出为1,而0为0。另外,我认为我可以挖掘更多数据。我发现了有关班级体重的一些东西,但我不知道如何实现这种情况。还有其他方法可以克服这个问题吗?数据是数值且连续的。

您可以采用两种类型的解决方案。

第一个是构建一个数据生成器,该数据生成器构建批次选择均衡数量的样本。例如,您可以构建一个生成32个样品的批次的Python发电机,以便从SET"是"随机挑选16个样品,而16个则是从SET" NO"中随机挑选的。这意味着该模型更频繁地看到了样本,但您并没有丢弃数据。

第二类解决方案是在您的度量标准上使用权重。也就

您也可以通过自定义度量实现加权。

我将从编写数据生成器的方法开始。

相关内容

最新更新