使用 CNN 进行图像反卷积

我有一个输入张量shape (C,H,W)，其中H=W和C=W^2。该张量包含shape (1,H,W)压缩到(H,W)的图像的非线性变换信息。转换的确切形式并不重要(另外，无论如何都没有闭式表达式(。我想设计一个CNN来估计来自这些张量的图像。我意识到我将不得不尝试CNN architectures(因为我没有转换的确切形式(，但我不确定如何进行。

输入张量具有正值和负值，这对于图像重建很重要，因此可能不应该在CNN开头附近实现ReLU layer。我认为池化层也没有用，至少在H和W维度上是这样。显然，我必须折叠 C 维度才能获得图像，但我认为不应该一次完成，e.g., torch.nn.Conv2d( C, 1, kernel_size )可能不是一个好主意。

在我看来，我应该首先使用一个产生与输入张量相同大小的张量Conv2D layer(以部分解扰非线性变换(，但如果核大小大于1，则H和W维的大小将减小，这是我不想要的(除非这可以在CNN稍后解决(。另一方面，如果核大小为 1，则形状将保持不变，但我认为在这种情况下张量不会发生任何事情。此外，我可能必须包含线性层，但我不确定如何将它们与3D张量一起使用。

欢迎任何建议。

在开头附近应用 ReLU 图层没有问题，只要先应用加权线性图层即可。如果网络了解到它需要那里的值，它可以应用负权重来保存信息(粗略地说(。

事实上，在某些网络中要做的一件有用的事情是归一化输入以拟合 N(0， 1( 正态分布。见 https://www.researchgate.net/post/Which_data_normalization_method_should_be_used_in_this_artificial_neural_network

至于由于内核大小而"减少"H/W 尺寸的问题 - 您可能可以在边框上使用 0 填充来避免此问题。根据我的经验，网络通常可以相对较好地处理这个问题。但是，如果性能是一个问题，通常您可能希望显着降低分辨率，然后在最后进行某种升级。您可以在此处找到此类网络的示例：创建神经网络结构的图像

至于池化/特征层：因为张量的深度非常大(W^2(，我建议你马上减少很多。网络的复杂性在张量的深度和像素计数方面是二次的，因为张量中每一层的权重。因此，我的基本策略是在开始时快速减少信息空间，进行一些分层计算，然后进行升级。

多年来我学到的是，CNN非常有弹性，在纸面上看起来不错的架构想法在现实中几乎没有什么作用 - 最好的因素几乎总是更多的层(以一种好的方式完成，但自从ResNet以来，它变得更容易了(和更多/更好的数据。所以我会开始试验并尝试评估给定的工作 PoC 是什么阻止了网络或尝试变体。

我希望这有足够的意义:)祝你好运！

相关内容

最新更新

热门标签：