如何用变分自编码器对图像进行分类

我已经在标记图像(1200)和未标记图像(4000)中训练了一个自动编码器，并且我分别保存了两个模型(vae_fake_img和vae_real_img)。所以我在想下一步该怎么做。我知道变分自编码器对分类任务没有用处，但特征提取似乎是一个很好的尝试。下面是我的尝试:

使用k-means聚类从标记的图像潜在空间标记我的未标记数据。
我的导师建议在VAE上训练未标记的图像，然后使用t-SNE可视化潜在空间，然后使用K-means聚类，然后使用MLP进行最终预测。
我想训练一个条件VAE来创建更多的标记样本，并重新训练VAE，并使用重建(64,64,3)输出，并使用VGGNet16架构的最后三个完全连接(FC)层进行最终分类，如本文所做的那样编码器作为特征提取论文。

我为我的论文尝试了很多方法，如果我想在现在的实习中找到工作，我真的需要达到很高的准确性。所以任何建议或指导都是非常感谢的。我读了很多Autoencoder的论文，但是分类架构没有完全解释(或者我没有正确理解)，我想知道VAE的哪一部分拥有更多的多分类信息，因为我相信编码器的潜在空间比解码器重建有更多有用的信息。我想知道自动编码器的哪一部分对最终分类有更好的特征提取。

在自动编码器的情况下，您不需要标签来重建输入数据。所以我认为这些方法可能会有一些改进:

使用VAE(变分自动编码器)代替AE
使用条件VAE(CVAE)并组合所有数据并训练网络，将所有数据输入其中。
考虑Batch作为条件，标记和未标记的数据，使用一批数据中的一个作为条件。
向编码器和解码器注入条件
那么潜在空间就不会有任何批处理效果，你可以使用KNN来获得最近的标记数据的标签。
或者，你可以训练一个样本MLP来分类潜在空间的每个样本。(在这种方法中，您应该只使用标记数据训练MLP，然后在未标记数据上测试它)

不要忘记批处理规范化和删除图层注:声发射中最有意义的一层是潜在空间。

相关内容

最新更新

热门标签：