LAPGAN来源论文《Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks》读后总结
前言
这是一些对于论文《Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks》的简单的读后总结,首先先奉上该文章的下载超链接:LAPGAN
这篇文章是由Courant Institute和Facebook AI Research的人员合作完成的,作者分别是Emily Denton、Soumith Chintala、Arthur Szlam和Rob Fergus。其是LAPGAN(Laplacian Pyramid of Adversarial Networks)的来源文章,该文章通过运用多个条件生成对抗网络(CGAN)逐级增加生成图像的分辨率生成了更优质的图像,其使得计算机生成的图像能让人类更加难以分辨。
由于当前水平有限,因此,仅能总结一些简单内容。
文章主要内容与贡献
该文章的贡献为:
- 提出了LAPGAN(Laplacian Pyramid of Adversarial Networks);
- 实验部分做了人类判别是否是自然图像的实验来说明LAPGAN的优越性。
提出了LAPGAN(Laplacian Pyramid of Adversarial Networks)
LAPGAN通过逐级从低分辨率到高分辨率的形式来生成高质量的图像,就像电影中在调取监控时,放大某一帧图像,然后一开始是模糊的,之后逐渐清晰化,然后载放大,再清晰化,最后达到想要的的目的时就停止(但是事实上现实生活中还没有这种技术,这都是影视作品的需求,实际上监控的像素都不高的,放大后模糊就是模糊)。
下图展示了LAPGAN是如何生成图像的:
上图展示出了
K
=
3
K=3
K=3的金字塔的工作过程,使用4个生成模型对
64
×
64
64\times64
64×64图像进行采样。从一个噪声样本
Z
3
Z_3
Z3(右下角)开始,使用生成模型G3生成
I
~
3
\widetilde{I}_3
I
3,然后
I
~
3
\widetilde{I}_3
I
3经过上采样变为
l
2
l_2
l2;向
G
2
G_2
G2输入噪声
z
2
z_2
z2和图像
l
2
l_2
l2生成图像的细致轮廓特征图
h
~
2
\widetilde{h}_2
h
2,通过将
l
2
l_2
l2和
h
~
2
\widetilde{h}_2
h
2相加获得更清晰的图像
I
~
2
\widetilde{I}_2
I
2,然后
I
~
2
\widetilde{I}_2
I
2经过上采样变为
l
1
l_1
l1;以此类推,最终获得了完整分辨率的图像
I
~
0
\widetilde{I}_0
I
0。
LAPGAN模型的训练过程如下所示:
从训练集的
64
×
64
64\times64
64×64输入图像
I
I
I开始(左上角),首先令
I
0
=
I
I_0=I
I0=I,然后通过两倍的下采样(红色箭头)产生图像
I
1
I_1
I1;然后对
I
1
I_1
I1进行两倍的上采样(绿色箭头)得到
I
0
I_0
I0的低通版本
l
0
l_0
l0,以相等的概率,使用
l
0
l_0
l0来为判别模型
D
0
D_0
D0创建真实的或生成的示例;在实际情况下(蓝色箭头),计算高通
H
0
=
I
0
−
l
0
H_0=I_0-l_0
H0=I0−l0,它被输入到D0,计算它是真实的还是生成的概率;在生成的情况下(品红色箭头),生成网络
G
0
G_0
G0接收随机噪声矢量
z
0
z_0
z0和
l
0
l_0
l0作为输入,它输出一个生成的高通图像
h
~
0
=
G
0
(
z
0
,
l
0
)
\widetilde{h}_0=G_0(z_0,l_0)
h
0=G0(z0,l0),然后输入
D
0
D_0
D0计算它是真实的还是生成的概率;在真实/生成的两种情况下,
D
0
D_0
D0还接收
l
0
l_0
l0(橙色箭头)计算它是真实的还是生成的概率;最优化以下方程(具体符号含义请参照论文原文):
G
0
G_0
G0因此学习生成与低通图像
l
0
l_0
l0一致的真实高频结构
h
~
0
\widetilde{h}_0
h
0。之后对
I
1
I_1
I1和
I
2
I_2
I2的处理遵循上述同样的步骤,请注意,每个级别的模型都是独立训练的。在最后的
I
3
I_3
I3处,由于其是
8
×
8
8\times8
8×8图像,足够简单,可以直接使用标准GANs
G
3
G_3
G3和
D
3
D_3
D3建模。
实验部分做了人类判别是否是自然图像的实验来说明LAPGAN的优越性
下图是论文中最有趣的一个实验,其做了人类判别是否是自然图像的实验来说明LAPGAN的优越性:
左图中,真实CIFAR10图像(红色),样本来自于 Goodfellow的GAN(品红色),来自于LAPGAN(蓝色)和一类条件LAPGAN(绿色)。由上可知,人类判断真实图像是自然的概率最高,而LAPGAN也有
40
%
40\%
40%的概率被判断为是真实的,远高于GAN的
10
%
10\%
10%。右图是作者们设计的供给人类判断的一个界面。
其它实验
在CIFAR10训练集上训练后生成的图像:
其中黄色列显示相邻列中样本最近的训练集。可以发现,LAPGAN生成的图像可信度还是挺高的,而且清晰度优于GAN。
在STL10训练集上训练后生成的图像:
该图是从LAPGAN模型生成的随机
96
×
96
96\times96
96×96样本。
该图是粗到细的世代链。
在三种不同的LSUN训练集上训练后生成的 64 × 64 64\times64 64×64图像:
塔:
卧室:
教堂: