DDPM扩散模型（模型结构图与公式推导）

最新推荐文章于 2025-06-16 20:57:35 发布

Cooku Black

最新推荐文章于 2025-06-16 20:57:35 发布

阅读量2.6k

点赞数 32

CC 4.0 BY-SA版权

分类专栏：深度学习机器学习 Python语言文章标签： python 深度学习扩散模型 DDPM

本文链接：https://blog.csdn.net/qq_73910510/article/details/140592843

DDPM扩散模型

一、前置知识

1. 条件概率知识

$\frac{P(AB)}{P(B)}$

$P (A BC) = P (C ∣ B A) P (B A) = P (C ∣ B A) P (B ∣ A) P (A)$

$P (BC ∣ A) = P (B ∣ A) P (C ∣ A, B)$

$\frac{P(BC| A)}{P(B|A)}$

2. 基于马尔科夫假设的条件概率

如果满足马尔科夫链关系 $A - > B - > C$ 那么有

$P (A BC) = P (C ∣ B A) P (B A) = P (C ∣ B) P (B ∣ A) P (A)$

$P (BC ∣ A) = P (B ∣ A) P (C ∣ B)$

3. 高斯分布的KL散度公式

对于两个单一变量的高斯分布 P 和 Q 而言，它们的 KL 散度为： $\log{\frac{\sigma_1}{\sigma_2}} + \frac{\sigma_1^2 + (\mu_1 - \mu_2)^2}{2 \sigma_2^2} - \frac{1}{2}$

KL 散度，又称为相对熵，描述两个概率分布P和Q的差异和相似性，用 $D_{KL}(P||Q)$ 表示

显然，散度越小，说明概率Q与概率P之间越接近，那么估计的概率分布与真实的概率分布也就越接近。

KL 散度的性质：

非对称性： $DKL≠DKL(Q∣∣P)D_{KL} \neq D_{KL}(Q || P)$

$DKL(P∣∣Q)≥0D_{KL}(P || Q) \geq 0$ ，仅在 $P = Q$ 时等于0

4. 参数重整化

如果希望从高斯分布 $N(μ,σ2)N(\mu, \sigma^2)$ 中采样（ $μ\mu$ ：表示均值， $σ2\sigma^2$ ：表示方差），可以先从标准分布 $N (0, 1)$ 采样处 $z$ ，再得到 $σ×z+μ\sigma \times z + \mu$ ，这样做的好处是将随机性转移到了 $z$ 这个常量上了，而 $σ\sigma$ 和 $μ\mu$ 则当做仿射变换网络的一部分。

二、Diffusion Model流程

在这里插入图片描述

$x_0$ 是初始数据（一个初始的图片）， $x_T$ 是最终的图片（一个纯噪声的图片）。

$x0∼xTx_0 \sim x_T$ 的过程是一个加噪过程，每次从 $q(x_t|x_{t - 1})$ 分布中取噪声，然后添加到前一个时间步的图片数据中，这样经过T个时间步，我们就能得到一个纯噪声的图片了。
$xT∼x0x_T \sim x_0$ 的过程是一个去噪过程，每次从 $pθ(xt−1∣xt)p_\theta(x_{t - 1}|x_t)$ 分布中取噪声，然后使前一个时间步的图片数据减去该噪声，这样经过T个时间步，我们就能得到原始的图片了。

其中 $q(x_t|x_{t - 1})$ 是自己设定的一个加噪分布，而 $pθ(xt−1∣xt)p_\theta(x_{t - 1}|x_t)$ 是需要神经网络去学习的一个分布，我们会使用参数分布来去对该分布做估计，由于使用了参数重整化的思想（ $σ×ϵ+μ\sigma \times \epsilon + \mu$ ，其中 $σ\sigma$ 是分布的方差， $μ\mu$ 表示的是分布的均值， $ϵ\epsilon$ 是从标准正态分布中随机采样的一个值），我们加噪过程是从一个标准正态分布中随机采样一个值，然后再进行参数重整化，依据 $μ\mu$ 和 $σ\sigma$ 得到特定分布下的噪声，而去噪过程是利用神经网络学习这个噪声，然后在每个时间步上减去预测出的噪声。

三、加噪过程

给定初始数据分布 $x0∼q(x)x_0 \sim q(x)$ ，可以不断地向分布中添加高斯噪声，该噪声的方差是以固定值 $βt\beta_t$ 而确定的，均值是以固定值 $βt\beta_t$ 和当前 $t$ 时刻的数据 $x_t$ 决定的。这个过程是一个马尔科夫链过程，随着 $t$ 的不断增大，不断的向数据中添加噪声，最终数据分布 $x_t$ 变成了一个各向独立的高斯分布。

噪声的分布可以表示如下：

$q(xt∣xt−1)=N(xt;1−βt⋅xt−1,βtI)q(x_t|x_{t - 1}) = N(x_t; \sqrt{1 - \beta_t}\cdot x_{t - 1}, \beta_tI)$ 其中 $1−βt⋅xt−1\sqrt{1 - \beta_t}\cdot x_{t- 1}$ 表示该分布的均值， $βtI\beta_t I$ 表示方差（ $I$ 表示单位矩阵）。

那么有： $xt=1−βtxt−1+βtztx_t = \sqrt{1 - \beta_t}x_{t - 1} + \sqrt{\beta_t} z_t$ ，其中 $1−βt\sqrt{1 - \beta_t}$ 是一个控制噪声强度的系数， $βt\beta_t$ 是一个添加噪声比例的系数，论文中说明，当分布越来月接近噪声分布的时候，可以将 $βt\beta_t$ 变得大一点，这样做可以再初始的时候 $βt\beta_t$ 很小，那么添加的噪声也就很小，而 $1−βt\sqrt{1 - \beta_t}$ 会很大，那么将会保留更多原来数据的特征，再最后的时候 $βt\beta_t$ 很大，那么添加的噪声也会更大，而 $1−βt\sqrt{1 - \beta_t}$ 也就会更大，那么将会去除掉更多原来数据的特征。