吴恩达深度学习课程DeepLearning.ai笔记（4-2）

2018年3月5日 1723点热度 0人点赞 0条评论

卷积神经网络 — 深度卷积模型

1. 经典的卷积网络

本节，吴恩达教授介绍了几种经典的神经网络模型，分别是LeNet、AlexNet、VGGNet，并且提到了后面要介绍的ResNet（残差网络）和Google的Inception。接下来对本节介绍的网络分别做一个简单的介绍。

（1）LeNet-5：

如图1 所示。LeNet-5主要针对灰度设计，所以其输入尺寸比较小，大小为32×32×1（灰度图像没有三维的RGB）。

图1

从图中可以看出，在LeNet的经典模式中：随着网络深度增加，图像的大小在缩小，但是通道却在增加；每个卷积层后面连接一个池化层。

（2）AlexNet：

如图2所示，该网络用语对彩色的图片进行处理。注意，虽然源论文中不是采用227×227×3，但在实际测试中，该尺寸效果更好。

图2

与前面的LeNet类似，但是该网络结构更复杂，参数也更多，相应的表现也更加好。该网络使用了RELU，使用了多个GPU。

（3）VGG-16：

VGG卷积层和池化层具有相同的大小，都是3×3，步长stride=1，SAME的卷积核为2×2，步长为2的池化结构，其结构如图3所示：

图3

（4）ResNet（残差网络）

残差网络是由残差块构建的网络。那么什么是残差块呢？下面来做一个解释。

下面是一个普通的的神经网络块传输（暂时无视a^[l]到a^[l+2]的这条线）：

图4

其前向传播过程分别是一个线性、RELU、线性、RELU的过程。而残差块则是增加了一个将a^[l]直接连接到a^[l+2]的过程，如图5所示，这个过程称为short cut或者skip connection。

图5

完整的残差块结构如图3所示。务必注意，这个连接在RELU activation function之前！

多个残差块连接起来就构成了ResNet网络。（注意，在论文中，普通的神经网络被称为Plain Network）

在学习神经网络的时候就提到了，ResNet对于中间的激活函数来说，有助于能够达到更深的网络，解决梯度消失和梯度爆炸的问题。

为什么残差网络表现能很好呢？

假设我们有一个Big NN，其输入为x，输出为a^[l]，如果我们想增加网络深度的话，同时也给其增加一个残差块：

图6

假设网络中我们都是用RELU activation function，那么最后的输出a≥0，这里的a^[l+2]我们可以知道为：

a^[l+2]=g(z^[l+2]+ a^[l])=g(W^[l+2] a^[l+1]+ b^[l+2]+ a^[l])

如果使用L-2正则化或者权重衰减，就会压缩W和b的值，如果W^[l+2]=0同时b^[l+2]=0，那么

a^[l+2]=g(z^[l+2]+ a^[l])=g(a^[l])=relu(a^[l])= a^[l]

因此我们可以看到，对于残差块来说学习上面这个恒等的函数是很容易的。所以在增加了残差块后更深网络的性能也不差于plain network。同时，如果增加的网络结构能够学习到一些有用信息，那么就会提升网络的性能。

2. 1×1卷积

什么是1×1卷积呢？

就是卷积核是一个1×1的元素。虽然说看起来这种卷积似乎没什么作用，但实际上作用非常大。

在二维上，这种卷积相当于图片每个元素与这个卷积核数字相乘。但是在三维上，与1×1×nc的卷积核进行卷积，就相当于三维图像上的1×1×nc的切片，也就是nc个点乘卷积数值权重，通过RELU函数输出对应结果。而不同的卷积核则相当于不同的隐层神经元节点与切片上的点一一连接。所以本质上这个卷积核相当于对一个切片上nc个单元都应用了一个全连接的神经网络。