GAN改进方向
GAN改进方向:原文只针对框架本身进行了理论证明和实验验证,表明了GAN的理论基础及其有效性,而对于其中的许多细节并没深究(相当于开采了一个大坑等人来填),比如文章中的输入信号只是随机噪声,比如原文中的G和D都只是以最简单的MLP来建模;另外,作者在文章结尾还列出了该模型可以改进的5个参考方向,进一步为后来逐渐广泛的研究做了铺垫。作者给出的参考方向主要包括:(1) 将G
1、GAN改进方向:
原文只针对框架本身进行了理论证明和实验验证,表明了GAN的理论基础及其有效性,而对于其中的许多细节并没深究(相当于开采了一个大坑等人来填),比如文章中的输入信号只是随机噪声,比如原文中的G和D都只是以最简单的MLP来建模;另外,作者在文章结尾还列出了该模型可以改进的5个参考方向,进一步为后来逐渐广泛的研究做了铺垫。作者给出的参考方向主要包括:
-
(1) 将GAN改进为条件产生式模型:这一点最早在GAN公开后的半年就得到了部分解决,即conditional GAN(ARXIV-2014)的工作,该模型实现了给定条件的数据生成,但现在在各个领域特别是图像和视频相关的生成工作中,也依然有许多对于给定条件生成数据的任务的相关改进与研究;
-
(2) 改进输入z:不直接用随机噪声信号,而是可以用其它网络根据真实数据x学习一个z,然后再输入G,相当于是对数据x做了一个编码;这一点目前基本上在多数基于GAN的应用中都被采纳;
-
(3) 对条件分布建模,由已有数据预测未出现的数据:往这个方向改进的相关工作相对出现较晚,直到2016年才逐步开始有相关工作出现;
-
(4) 半监督学习:在2015年年底出现了将GAN用于半监督问题的工作;另外,现有的许多GAN工作也都表明通过加入少量类别标签,引入有标签数据的类别损失度量,不仅功能上实现了半监督学习,同时也有助于GAN的稳定训练;
-
(5) 提升GAN的训练效率:目前比GAN的训练效率更加要紧的训练稳定性问题还没有得到很好的解决,因此相对来说,目前这一点的研究并不广泛,而且相比较其它的产生式模型而言,GAN的速度也不算是一个非常“拖后腿”的点。
除了作者给出的以上几个参考方向外,目前GAN在计算机视觉中的超分辨率图像生成、视频帧的生成、艺术风格迁移等问题中都得到了广泛关注。
2、总体的改进方向
(1)另外一种从GAN模型本身出发进行改进的工作是将GAN与其它模型结合,综合利用GAN模型与其它模型的优点来完成数据生成任务。
(2)最后一种改进,是从GAN本源出发,对GAN进行半监督形式的扩展,这类工作目前的做法都大同小异,通过引入类别损失来进行GAN的学习。
二、模型改进(偏应用层面)
1、提到GAN在应用层面的改进,就不得不说perceptual similarity,该度量改变了以往的按照图像的像素级差异来衡量损失的情况,使模型更加鲁棒。在当下的多数图像生成以及视频数据处理等模型中都有将perceptual similarity加入考虑。
(1) Perceptual Similarity Metrics (NIPS-2016)
Perceptual Similarity Metrics 的主要贡献在于提出了一种新的度量,有助于使GAN产生清晰图像。其方法是将通常在原始图像空间的损失度量替换为在特征空间的损失度量。具体来说,在训练GAN时,除了原始GAN中的对抗训练损失,额外加入了两个损失项,共计三个损失项,分别为:
-
特征空间损失Lfeat:文章构建了一个比较器网络C,然后比较真实样本和产生的样本分别作为输入时,网络的特征图(feature map)的差异性,即
这里的一个问题是网络中间层的特征图的相似性,只能代表高层的相似性,会使产生出的相对低层的像素级数据出现畸形,因此需要加入图像的一些先验信息进行约束。而这个先验信息就通过对抗损失来体现,从而有了下面的对抗损失;
-
对抗损失:这里的对抗损失,即与生成器一起训练一个判别器,其中判别模块的目的是为了区分开产生数据与真实数据,而生成器的目的则是为了尽量的迷惑判别器,其数学形式与原始GAN损失相似,即
判别器D以最小化如下损失为目标:
生成器G以最小化如下损失为目标:
-
图像空间损失:用生成数据与真实数据的L2损失来表示,对像素层面的相似性进行约束,即为
最终的目标函数为三个loss项的加权和。
其实验结果非常值得关注,因其清晰的表明了各个loss的作用,如下图所示。可以看出,如果没有对抗损失Ladv,产生的结果非常差;如果没有特征空间的损失项Lfeat,会使产生的图像只有大概的轮廓信息,但会丢失许多细节信息;如果没有图像空间损失Limg,最终产生的结果跟有Limg差不多,但在训练的时候没有这一项的话会使网络更容易不稳定;而同时利用三项loss的结果则可以相对稳定的产生出较为清晰的图像。目前该度量在许多基于GAN的模型中都得到了应用。
(2) 超分图像生成 (ECCV-2016; ARXIV-2016):
在与上述工作的几乎同时期(相差仅一个月),Li Fei-Fei团队也提出了类似的perceptual loss (ECCV-2016),通过网络中间层的特征图的差异来作为代价函数,利用GAN的框架,进行风格迁移和超分图像的生成任务;
时隔约半年后,2016年9月Twitter的SRGAN基于上述损失,提出一种新的损失函数与GAN本身的loss结合,实现了从低分辨率图像到超分辨率图像的生成。SRGAN与上述NIPS-2016工作的主要不同是:(1) 将图像空间的损失替换成了一个对生成图像整体方差的约束项,以保证图像的平滑性;(2) 采用了某种规则化的特征图差异损失,而不是直接累加求和:SRGAN将生成数据和真实数据分别输入VGG-19网络,根据得到的feature map的差异来定义损失项,其形式与NIPS-2016的主要不同在于加入了规则化的处理 (normalization),从而变成:
其中Wij, Hij为feature map的宽和高,ϕ(i,j)表示在VGG-19的网络中第i个max pooling层前的第j个卷积层。最后,结合这三个损失项:对抗损失、图像平滑项、特征图差异,送入GAN框架,可以生成相对其它方法明显效果好的超分辨率图像,其对比如下图所示:
2、常规的从噪声数据生成图像和给定属性产生图像的任务可以看做是从噪声到图(输入为噪声,输出为图像)和从图到图(输入为图像,输出为图像)的问题,而ICML-2016上的工作另辟蹊径,实现Image Captioning的反任务,即从文本描述生成图像。该文也是第一个提出用GAN的框架来实现从文本生成图像的工作,对于推动GAN以及产生式模型在实际中的进一步应用具有一定意义:
该文实现的任务是产生满足文本描述的图像,相当于是以文本描述为条件来产生图像,因此可以在某种程度上看做是对原始的conditional GAN模型(ARXIV-2014) 的一种扩展和应用。其模型架构如下图所示,将文本进行编码后的特征与随机噪声信息串接输入产生器产生图像;而编码后的文本特征也同时作为监督信号输入判别器以构建目标函数。
其效果也非常可观,如下图所示,可以看出,大部分时候都能产生出与文本意义相对应的图像。
3、在处理静态图像的生成任务的同时,GAN也逐渐被扩展到了视频处理领域,NIPS-2016上的[14]即为一个代表性工作,该工作可以同时生成和预测下一视频帧:
为了产生出具有时域变化的视频帧,该模型在生成器部分将动态前景部分和静态背景部分分开建模和生成,构建two-stream的样本生成器,然后将产生的前景和背景进行组合得到产生出的video;对于判别器,主要完成两个任务:区分出产生数据与真实数据,同时要识别出视频帧间进行的行为,从而指导生成器去产生数据。其结构如下图所示。
转载:https://www.leiphone.com/news/201701/Hrv1qUS6GYl1vl7O.html
更多推荐

所有评论(0)