在 Keras 中使用类权重的多标签分类

我在网络中有1000个类，它们具有多标签输出。对于每个训练示例，正输出的数量是相同的(即 10)，但它们可以分配给 1000 个类中的任何一个。因此，10 个类的输出为 1，其余 990 个类的输出为 0。

对于多标签分类，我使用"二进制交叉熵"作为成本函数，使用"sigmoid"作为激活函数。当我尝试将 0.5 作为 1 或 0 的截止值时。他们都是0。我知道这是一个阶级失衡问题。从这个链接，我明白，我可能必须创建额外的输出标签。不幸的是，我一直无法弄清楚如何将其合并到keras中的简单神经网络中。

nclasses = 1000
# if we wanted to maximize an imbalance problem!
#class_weight = {k: len(Y_train)/(nclasses*(Y_train==k).sum()) for k in range(nclasses)}

inp = Input(shape=[X_train.shape[1]])
x = Dense(5000, activation='relu')(inp)
x = Dense(4000, activation='relu')(x)
x = Dense(3000, activation='relu')(x)
x = Dense(2000, activation='relu')(x)
x = Dense(nclasses, activation='sigmoid')(x)
model = Model(inputs=[inp], outputs=[x])
adam=keras.optimizers.adam(lr=0.00001)
model.compile('adam', 'binary_crossentropy')
history = model.fit(
X_train, Y_train, batch_size=32, epochs=50,verbose=0,shuffle=False)

任何人都可以在这里帮助我编写代码，如果您能为这个问题提出一个好的"准确性"指标，我也将不胜感激？

非常感谢:) :)

我有一个类似的问题，不幸的是，大多数问题都没有答案。尤其是阶级失衡问题。

就指标而言，有几种可能性：就我而言，我使用顶部 1/2/3/4/5 结果并检查其中一个是否正确。因为在你的情况下，你总是有相同数量的标签=1，你可以把你的前 10 个结果，看看其中有多少是正确的，并在你的批次大小上平均这个结果。我没有发现将此算法作为 keras 指标包含的可能性。相反，我编写了一个回调，用于计算验证数据集上纪元结束时的指标。

此外，如果预测测试数据集上的前 n 个结果，请查看每个类的预测次数。柜台类为此目的非常方便。

编辑：如果找到一种包含类权重而不拆分输出的方法。您需要一个包含具有形状的权重的 numpy 2d 数组 [要预测的数字类，2(背景和信号)]。这样的数组可以用这个函数计算：

def calculating_class_weights(y_true):
from sklearn.utils.class_weight import compute_class_weight
number_dim = np.shape(y_true)[1]
weights = np.empty([number_dim, 2])
for i in range(number_dim):
weights[i] = compute_class_weight('balanced', [0.,1.], y_true[:, i])
return weights

现在的解决方案是构建自己的二进制交叉熵损失函数，其中您可以自己乘以权重：

def get_weighted_loss(weights):
def weighted_loss(y_true, y_pred):
return K.mean((weights[:,0]**(1-y_true))*(weights[:,1]**(y_true))*K.binary_crossentropy(y_true, y_pred), axis=-1)
return weighted_loss

weights[：，0] 是一个包含所有背景权重的数组，权重 [：，1] 包含所有信号权重。

剩下的就是将此损失包含在编译函数中：

model.compile(optimizer=Adam(), loss=get_weighted_loss(class_weights))

相关内容

最新更新

热门标签：