如何评估用于降维的自动编码器

我使用自动编码器作为降维技术，将学习到的表示用作可用于进一步分析的低维特征。

代码片段：

# Note: implementation --> based on keras 
encoding_dim = 32
# Define input layer
X_input = Input(shape=(X_train.shape[1],))
# Define encoder:
encoded = Dense(encoding_dim, activation='relu')(X_input)
# Define decoder:
decoded = Dense(X_train.shape[1], activation='sigmoid')(encoded)
# Create the autoencoder model
AE_model = Model(X_input, decoded)
#Compile the autoencoder model
AE_model.compile(optimizer='adam', loss='mse')
#Extract learned representation
learned_feature = Model(X_input, encoded)
history = AE_model.fit(X_train, X_train, epochs=10, batch_size=32)

我一直在寻找一种方法来衡量学习表现的质量。我发现一种方法是测量重建误差。我使用以下代码来做到这一点：

import math
reconstr_error = AE_model.evaluate(X_train, X_train, verbose=0)
print('The reconstruction error: %.2f MSE (%.2f RMSE)' % (reconstr_error , math.sqrt(reconstr_error )))

结果我得到了0.00 MSE(0.05 RMSE(。然而，我不确定上面的代码在测量重建误差方面是否正确？。此外，如果有其他方法，请告诉我。

压缩的目的是什么？如果您的项目中有以下分类器模型，您可以使用正常(未输入AE(数据来训练该模型，并查看准确性或您正在测量的任何数据。然后训练相同的模型，但在用AE压缩数据后。如果你也得到了相当好的结果，这意味着你用autoencoder提取了一些有用的东西。特别是如果你没有使用所有的数据来训练AE，并了解AE在训练中没有看到的例子的压缩将如何影响准确性。

例如，在PCA等其他技术中，主要成分是特征向量，这些特征向量的相应特征值实际上非常有意义，它们告诉你数据中有多少信息在每个方向上变化，这就像方差一样。但在AE中，尤其是深度AE中，这样的分析并不直观，或者至少超出了我的知识范围。但在1层AE中，也许你仍然可以做一些类似的事情，实际上，以MSE为目标的1层AE非常接近PCA。您可以在隐藏层中提取这些权重，也可以对数据协方差矩阵应用PCA或本征分解。然后计算这些隐藏层权重和特征向量之间的余弦距离，看看它是否保留了一些有意义的东西。

我不知道是否还能做更多的事情，但如果这对你来说很重要的话，也许你可以找到一些文件来解决这些问题。

相关内容

最新更新

热门标签：