使用 CNN 进行图像反卷积



我有一个输入张量shape (C,H,W),其中H=WC=W^2。 该张量包含shape (1,H,W)压缩到(H,W)的图像的非线性变换信息。 转换的确切形式并不重要(另外,无论如何都没有闭式表达式(。 我想设计一个CNN来估计来自这些张量的图像。 我意识到我将不得不尝试CNN architectures(因为我没有转换的确切形式(,但我不确定如何进行。

输入张量具有正值和负值,这对于图像重建很重要,因此可能不应该在CNN开头附近实现ReLU layer。 我认为池化层也没有用,至少在HW维度上是这样。 显然,我必须折叠 C 维度才能获得图像,但我认为不应该一次完成,e.g., torch.nn.Conv2d( C, 1, kernel_size )可能不是一个好主意。

在我看来,我应该首先使用一个产生与输入张量相同大小的张量Conv2D layer(以部分解扰非线性变换(,但如果核大小大于1,则HW维的大小将减小,这是我不想要的(除非这可以在CNN稍后解决(。 另一方面,如果核大小为 1,则形状将保持不变,但我认为在这种情况下张量不会发生任何事情。 此外,我可能必须包含线性层,但我不确定如何将它们与3D张量一起使用。

欢迎任何建议。

在开头附近应用 ReLU 图层没有问题,只要先应用加权线性图层即可。如果网络了解到它需要那里的值,它可以应用负权重来保存信息(粗略地说(。

事实上,在某些网络中要做的一件有用的事情是归一化输入以拟合 N(0, 1( 正态分布。见 https://www.researchgate.net/post/Which_data_normalization_method_should_be_used_in_this_artificial_neural_network

至于由于内核大小而"减少"H/W 尺寸的问题 - 您可能可以在边框上使用 0 填充来避免此问题。根据我的经验,网络通常可以相对较好地处理这个问题。但是,如果性能是一个问题,通常您可能希望显着降低分辨率,然后在最后进行某种升级。您可以在此处找到此类网络的示例:创建神经网络结构的图像

至于池化/特征层:因为张量的深度非常大(W^2(,我建议你马上减少很多。网络的复杂性在张量的深度和像素计数方面是二次的,因为张量中每一层权重。因此,我的基本策略是在开始时快速减少信息空间,进行一些分层计算,然后进行升级。

多年来我学到的是,CNN非常有弹性,在纸面上看起来不错的架构想法在现实中几乎没有什么作用 - 最好的因素几乎总是更多的层(以一种好的方式完成,但自从ResNet以来,它变得更容易了(和更多/更好的数据。所以我会开始试验并尝试评估给定的工作 PoC 是什么阻止了网络或尝试变体。

我希望这有足够的意义:)祝你好运!

最新更新