Deep_learning_know

空洞卷积

空洞卷积诞生于图像分割领域，比如FCN网络，首先像传统的CNN一样，先卷积后池化，经过池化层之后，图像尺寸降低，感受野增大，但是因为图像分割需要实现像素级的输出，所以要将经过池化之后的较小的特征图通过转置卷积（反卷积）降采样到与原始图像相同的尺寸。之前的池化操作使得原特征图中的每个像素都具有较大的感受野，因此FCN中的两个关键：一是通过池化层增大感受野，二是通过转置卷积增大图像尺寸。在先减小后增大的过程中，肯定会丢失信息，那么能否不同池化层也可以使得网络具有较大的感受野呢？空洞卷积应运而生。

关于空洞卷积的理解可参考：如何理解空洞卷积（dilated convolution）？作者：谭旭

在这里插入图片描述

(a)图 对应3x3的1-dilated conv，和普通的卷积操作一样；
(b)图 对应3x3的2-dilated conv，实际的卷积 kernel size 还是 3x3，但是空洞为1，也就是对于一个7x7的图像patch，只有9个红色的点和3x3的kernel发生卷积操作，其余的点略过。也可以理解为kernel的size为7x7，但是只有图中的9个点的权重不为0，其余都为0。可以看到虽然kernel size只有3x3，但是这个卷积的感受野已经增大到了7x7（如果考虑到这个2-dilated conv的前一层是一个1-dilated conv的话，那么每个红点就是1-dilated的卷积输出，所以感受野为3x3，所以1-dilated和2-dilated合起来就能达到7x7的conv）；
(c)图 是4-dilated conv操作，同理跟在两个1-dilated和2-dilated conv的后面，能达到15x15的感受野。对比传统的conv操作，3层3x3的卷积加起来，stride为1的话，只能达到(kernel-1)*layer+1=7的感受野，也就是和层数layer成线性关系，而dilated conv的感受野是指数级的增长。
dilated的好处是不做pooling损失信息的情况下，加大了感受野，让每个卷积输出都包含较大范围的信息。在图像需要全局信息或者语音文本需要较长的sequence信息依赖的问题中，都能很好的应用dilated conv，比如图像分割[3]、语音合成WaveNet[2]、机器翻译ByteNet[1]中。

转置卷积（待补充）

卷积是使输出大小变小的过程。因此，而反卷积（deconvolution）*可以进行向上采样以增大输出大小。但是，反卷积并代表卷积的逆过程。因此它也被称为向上卷积或*转置卷积（transposed convolution）。当使用分数步幅时，也称为分数步幅卷积（fractional stride convolution）。

在这里插入图片描述

PreviousModel_ComFuc NextTheoretical knowledge

Last updated 2 years ago