如何用变分自编码器对图像进行分类



我已经在标记图像(1200)和未标记图像(4000)中训练了一个自动编码器,并且我分别保存了两个模型(vae_fake_img和vae_real_img)。所以我在想下一步该怎么做。我知道变分自编码器对分类任务没有用处,但特征提取似乎是一个很好的尝试。下面是我的尝试:

  1. 使用k-means聚类从标记的图像潜在空间标记我的未标记数据。
  2. 我的导师建议在VAE上训练未标记的图像,然后使用t-SNE可视化潜在空间,然后使用K-means聚类,然后使用MLP进行最终预测。
  3. 我想训练一个条件VAE来创建更多的标记样本,并重新训练VAE,并使用重建(64,64,3)输出,并使用VGGNet16架构的最后三个完全连接(FC)层进行最终分类,如本文所做的那样编码器作为特征提取论文。

我为我的论文尝试了很多方法,如果我想在现在的实习中找到工作,我真的需要达到很高的准确性。所以任何建议或指导都是非常感谢的。我读了很多Autoencoder的论文,但是分类架构没有完全解释(或者我没有正确理解),我想知道VAE的哪一部分拥有更多的多分类信息,因为我相信编码器的潜在空间比解码器重建有更多有用的信息。我想知道自动编码器的哪一部分对最终分类有更好的特征提取。

在自动编码器的情况下,您不需要标签来重建输入数据。所以我认为这些方法可能会有一些改进:

  • 使用VAE(变分自动编码器)代替AE
  • 使用条件VAE(CVAE)并组合所有数据并训练网络,将所有数据输入其中。
  • 考虑Batch作为条件,标记和未标记的数据,使用一批数据中的一个作为条件。
  • 向编码器和解码器注入条件
  • 那么潜在空间就不会有任何批处理效果,你可以使用KNN来获得最近的标记数据的标签。
  • 或者,你可以训练一个样本MLP来分类潜在空间的每个样本。(在这种方法中,您应该只使用标记数据训练MLP,然后在未标记数据上测试它)

不要忘记批处理规范化和删除图层注:声发射中最有意义的一层是潜在空间。

相关内容

  • 没有找到相关文章

最新更新