LAPGAN来源论文《Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks》读后总结

本文介绍了一种名为LAPGAN的生成模型,该模型通过使用多个条件生成对抗网络逐步提高图像分辨率,生成高质量图像。实验表明,LAPGAN生成的图像能够使人类更难分辨真假。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

这是一些对于论文《Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks》的简单的读后总结,首先先奉上该文章的下载超链接:LAPGAN

这篇文章是由Courant Institute和Facebook AI Research的人员合作完成的,作者分别是Emily Denton、Soumith Chintala、Arthur Szlam和Rob Fergus。其是LAPGAN(Laplacian Pyramid of Adversarial Networks)的来源文章,该文章通过运用多个条件生成对抗网络(CGAN)逐级增加生成图像的分辨率生成了更优质的图像,其使得计算机生成的图像能让人类更加难以分辨。

由于当前水平有限,因此,仅能总结一些简单内容。

文章主要内容与贡献

该文章的贡献为:

  1. 提出了LAPGAN(Laplacian Pyramid of Adversarial Networks);
  2. 实验部分做了人类判别是否是自然图像的实验来说明LAPGAN的优越性。

提出了LAPGAN(Laplacian Pyramid of Adversarial Networks)

LAPGAN通过逐级从低分辨率到高分辨率的形式来生成高质量的图像,就像电影中在调取监控时,放大某一帧图像,然后一开始是模糊的,之后逐渐清晰化,然后载放大,再清晰化,最后达到想要的的目的时就停止(但是事实上现实生活中还没有这种技术,这都是影视作品的需求,实际上监控的像素都不高的,放大后模糊就是模糊)。

下图展示了LAPGAN是如何生成图像的:
在这里插入图片描述
上图展示出了 K = 3 K=3 K=3的金字塔的工作过程,使用4个生成模型对 64 × 64 64\times64 64×64图像进行采样。从一个噪声样本 Z 3 Z_3 Z3(右下角)开始,使用生成模型G3生成 I ~ 3 \widetilde{I}_3 I 3,然后 I ~ 3 \widetilde{I}_3 I 3经过上采样变为 l 2 l_2 l2;向 G 2 G_2 G2输入噪声 z 2 z_2 z2和图像 l 2 l_2 l2生成图像的细致轮廓特征图 h ~ 2 \widetilde{h}_2 h 2,通过将 l 2 l_2 l2 h ~ 2 \widetilde{h}_2 h 2相加获得更清晰的图像 I ~ 2 \widetilde{I}_2 I 2,然后 I ~ 2 \widetilde{I}_2 I 2经过上采样变为 l 1 l_1 l1;以此类推,最终获得了完整分辨率的图像 I ~ 0 \widetilde{I}_0 I 0

LAPGAN模型的训练过程如下所示:
在这里插入图片描述
从训练集的 64 × 64 64\times64 64×64输入图像 I I I开始(左上角),首先令 I 0 = I I_0=I I0=I,然后通过两倍的下采样(红色箭头)产生图像 I 1 I_1 I1;然后对 I 1 I_1 I1进行两倍的上采样(绿色箭头)得到 I 0 I_0 I0的低通版本 l 0 l_0 l0,以相等的概率,使用 l 0 l_0 l0来为判别模型 D 0 D_0 D0创建真实的或生成的示例;在实际情况下(蓝色箭头),计算高通 H 0 = I 0 − l 0 H_0=I_0-l_0 H0=I0l0,它被输入到D0,计算它是真实的还是生成的概率;在生成的情况下(品红色箭头),生成网络 G 0 G_0 G0接收随机噪声矢量 z 0 z_0 z0 l 0 l_0 l0作为输入,它输出一个生成的高通图像 h ~ 0 = G 0 ( z 0 , l 0 ) \widetilde{h}_0=G_0(z_0,l_0) h 0=G0(z0,l0),然后输入 D 0 D_0 D0计算它是真实的还是生成的概率;在真实/生成的两种情况下, D 0 D_0 D0还接收 l 0 l_0 l0(橙色箭头)计算它是真实的还是生成的概率;最优化以下方程(具体符号含义请参照论文原文):
在这里插入图片描述
G 0 G_0 G0因此学习生成与低通图像 l 0 l_0 l0一致的真实高频结构 h ~ 0 \widetilde{h}_0 h 0。之后对 I 1 I_1 I1 I 2 I_2 I2的处理遵循上述同样的步骤,请注意,每个级别的模型都是独立训练的。在最后的 I 3 I_3 I3处,由于其是 8 × 8 8\times8 8×8图像,足够简单,可以直接使用标准GANs G 3 G_3 G3 D 3 D_3 D3建模。

实验部分做了人类判别是否是自然图像的实验来说明LAPGAN的优越性

下图是论文中最有趣的一个实验,其做了人类判别是否是自然图像的实验来说明LAPGAN的优越性:
在这里插入图片描述
左图中,真实CIFAR10图像(红色),样本来自于 Goodfellow的GAN(品红色),来自于LAPGAN(蓝色)和一类条件LAPGAN(绿色)。由上可知,人类判断真实图像是自然的概率最高,而LAPGAN也有 40 % 40\% 40%的概率被判断为是真实的,远高于GAN的 10 % 10\% 10%。右图是作者们设计的供给人类判断的一个界面。

其它实验

在CIFAR10训练集上训练后生成的图像:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
其中黄色列显示相邻列中样本最近的训练集。可以发现,LAPGAN生成的图像可信度还是挺高的,而且清晰度优于GAN。

在STL10训练集上训练后生成的图像:

在这里插入图片描述
该图是从LAPGAN模型生成的随机 96 × 96 96\times96 96×96样本。
在这里插入图片描述
该图是粗到细的世代链。

在三种不同的LSUN训练集上训练后生成的 64 × 64 64\times64 64×64图像:

塔:
在这里插入图片描述
卧室:
在这里插入图片描述
教堂:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值