我正在构建一个自动编码器,需要将图像编码为长度为100的潜在表示。我的模型使用以下体系结构。
self.conv1 = nn.Conv2d(in_channels = 3, out_channels = 32, kernel_size=3)
self.conv2 = nn.Conv2d(in_channels=32,out_channels=64,kernel_size=3,stride=2)
self.conv3 = nn.Conv2d(in_channels=64,out_channels=128,kernel_size=3,stride=2)
self.linear = nn.Linear(in_features=128*30*30,out_features=100)
self.conv1_transpose = nn.ConvTranspose2d(in_channels=128,out_channels=64,kernel_size=3,stride=2,output_padding=1)
self.conv2_transpose = nn.ConvTranspose2d(in_channels=64,out_channels=32,kernel_size=3,stride=2,output_padding=1)
self.conv3_transpose = nn.ConvTranspose2d(in_channels=32,out_channels=3,kernel_size=3,stride=1)
有没有什么方法可以把Linear
层的输出提供给Conv2D
或ConvTranspose2D
层,这样我就可以重建我的图像?如果我移除Linear
层,则会恢复输出。我想知道如何在保持Linear
层的情况下重建我的图像
如有任何帮助,我们将不胜感激。谢谢
您可以使用另一个线性层:
self.linear2 = nn.Linear(in_features=100, out_features=128*30*30)
然后将输出重塑为3D体积,并将其传递到去卷积层中。