2006年,Geoffrey Hinton在《Science》杂志上首次发表了关于深度学习的思想[4]。Hinton提出的深度学习概念主要有两点:一是打破之前浅层次学习只有一层隐层节点的限制,提出多隐层的人工神经网络,这样的人工神经网络具有优异的特征学习能力,对于特征的刻画更为深入,从而有利于特征的分类;二是通过“逐层初始化”的方式,将神经网络模块化,上一层的输出作为下一层的输入,从而降低深度学习训练的难度,即不断从高维度降低到低维度。此前神经网络只能在有限的层次进行学习,适用面很窄。不过深度学习思想的出现提升了机器学习的层次,使得适用度更广。80882
在深度学习领域,目前已经有了很多深度模型用以增加深度网络的性能。
VGGnet是一种深层网络,它的主要工作证明了增加网络的深度能够在一定程度上影响网络最终的性能,如图1。1,通过逐步增加网络深度(从A到E)来提高性能,整个模型没有特别取巧的部分,就是简单的增加层数,但是确实有效,很多预先训练的方法就是使用VGG的模型(主要是16和19)。VGG最大的特点就是尽可能让网络更加深。 VGGnet模型
可以从图中看出,从A到最后的E,他们增加的是每一个卷积组中的卷积层数,最后D,E是常见的VGG-16,VGG-19模型,VGG主要得优势在于减少参数;去掉了局部响应归一化层,减少了内存的消耗和计算时间。但是VGG相对其他的方法,参数空间很大,最终有500MB,而 GoogLeNet更少,所以训练一个VGG模型通常要花费更长的时间。
图像风格迁移是VGG网络的经典应用,也是目前最有趣的深度学习应用。图像风格迁移的网络可以通过学习一张图片的风格,将这张的风格转移到另外一张图像当中。最经典的案例,就是将梵高的《星空》风格转移到其他图像当中,因为它的风格非常明显,而且广为流传,如图1。2。图像风格迁移采用的是VGG16模型,VGG模型训练慢的特点造成了图像风格迁移生成图片的速度很慢,同时使用GPU和CPU时,一般需要运行十多分钟,但是如果只使用CPU运行程序,则需要几个小时,图像尺寸越大,则运行时间越长。因此对于VGG网络来说,事先通过多次训练得到一个优质的模型非常重要,不然每次使用都要重新训练模型,将会增加时间成本。 图像风格迁移论文网
越大的神经网络就会有越多的模型参数,也需要更多的计算资源支持,并且由于模型过于复杂会过拟合。网络的层数的增加也会伴随着需求计算资源的增加,因此一个更加强大的网络结构GoogLeNet诞生了。
GoogLeNet将网络中的每一个结点都作为一个网络,形成一种网络中嵌入另一个网络的Inception模型。Inception模型一直在不断发展,目前已经有V2、V3、V4了。Inception模型采用一个1x1的卷积层用来降低网络的复杂程度。这样的优势在于使得整个网络模型的宽度和深度都根据需求调整,并且提升模型的性能,如图1。3所示。 Inception模型
VGG和GoogLeNet是目前比较成熟的深度学习网络,在日常生活中已经得到了广泛运用,如小区的自动识别车牌计算停车时间的技术。除了这些,基于生成式对抗网络(GAN)的相关研究也正在如火如荼地进行中。