Suahi-CSDN博客

原创【强化学习】一文搞懂Sarsa算法！

在Sarsa学习过程中，通过下述迭代求解随机近似方程以获得qπ(s,a)q_{\pi}(s,a)qπ(s,a)动作值：qπ(St=s,At=a)=E[Rt+1+γqπ(St+1,At+1)∣St=s,At=a](1)q_{\pi}(S_t = s,A_t=a)=\mathbb{E}[R_{t+1}+\gamma q_{\pi}(S_{t+1},A_{t+1})|S_t=s,A_t=a] \tag{1}qπ(St=s,At=a)=E[Rt+1+γqπ(St+1,At+1)∣St=s,At

2025-08-05 18:26:06 448

原创【深度学习】大模型-Transformer

把输入的单词用one-hot进行编码，长度是现有所有单词。问题：词与词之间没有关联，余弦相似度都为0，且内存开销大。包括[[003 embedding#CBOW模型|Word2Vec]]、[[005 ELMO模型|ELMO]]等不同模型，由静态到动态的表征一个输入词的word embedding。word embedding克服了one-hot硬编码的问题，使得含义相近的词在多维空间上有近似的点位。比如这种任务也叫做，这种任务采用传统FC存在一个较大问题：但是第二个、第四个肯定是不同的词性，但是仅通过输入完

2025-06-30 21:13:29 762

原创【深度学习】DDIM详细公式以及损失函数推导

p(xt∣xt+1,x0)=p(xt+1∣xt,x0)p(xt∣x0)p(xt+1∣x0)=p(xt+1∣xt)p(xt∣x0)p(xt+1∣x0)\begin{aligned}p(x_t|x_{t+1},x_0)&=\frac{p(x_{t+1}|x_t,x_0)p(x_t|x_0)}{p(x_{t+1}|x_0)} \\&=\frac{p(x_{t+1}|x_{t})p(x_t|x_0)}{p(x_{t+1}|x_0)} \\\end{aligned}p(xt∣xt+1,x0)=p(x

2025-06-16 20:57:35 649

原创【深度学习】MLE视角下VAE到DDPM的Loss推导 02

图中是基于MHVAE的标注，替换为x→x0x \rightarrow x_0x→x0、zi→xiz_i \rightarrow x_izi→xi其中加噪过程q(xt∣xt−1)q(x_{t}|x_{t-1})q(xt∣xt−1)是人为的，具体公式参考[[001 DDPM-v2]]，因此不添加ϕ\phiϕ参数；其中去噪过程pθ(xt−1∣xt)p_{\theta}(x_{t-1}|x_t)pθ(xt−1∣xt)是需要学习的，因此添加θ\thetaθ参数进行神经网络参数化操作；参考上述MLE推

2025-04-30 10:00:12 782

原创【深度学习】MLE视角下VAE到DDPM的Loss推导 01

这类模型最大的特点就是希望实现θ=arg⁡max⁡θEx∼pdata(x)[log(pθ(x))]\theta = \arg\max \limits_{\theta} \mathbb{E}_{x \sim p_{data}(x)}[log(p_{\theta}(x))]θ=argθmaxEx∼pdata(x)[log(pθ(x))]上述式子是啥意思呢？θ\thetaθ是神经网络的参数集合，pθ(x)p_{\theta}(x)pθ(x)是神经网络模型学习（拟合）得到的分布。所以上式意思是我希望我

2025-04-30 09:59:39 716

原创【深度学习】DDPM讲的最透彻的一集！02

上述过程我觉得更应该理解为一个假设过程，所有图片可以在噪声的影响下一步步的变化为一个噪声，那么如果我有一张标准高斯噪声图，是不是也可以逆流程一步步还原回去？天才！xt=1αt+1(xt+1−βt+1ϵt+1)p(xt∣xt+1)=N(xt+1αt+1,βt+1αt+1I)【对吗???】\begin{aligned}x_t&=\frac{1}{\sqrt{\alpha_{t+1}}}(x_{t+1}-\sqrt{\beta_{t+1}}\epsilon_{t+1}) \\p(x_t|x_{t+1})&

2025-04-30 09:56:44 1544

原创【深度学习】DDPM讲的最透彻的一集！01

感性的认识出发，我有一张x0x_0x0照片，对其进行不断的加高斯白噪声ϵ∼N(0,I)\epsilon \sim N(0,I)ϵ∼N(0,I)，那么在T→∞T \rightarrow \inftyT→∞次加噪后，原本清晰的图像会变成一个标准的高斯白噪声。当然里面需要加一些附属条件xt+1=αt+1xt+1−αt+1ϵt+1,ϵt+1∼N(0,I)\begin{aligned}x_{t+1}&=\sqrt{\alpha_{t+1}}x_t+\sqrt{1-\alpha_{t+1}}\epsilon_{

2025-04-30 09:55:45 1374

原创【深度学习】从VAE到GAN漫谈

z=pθ(x)x^=qϕ(z)L=12∥x−x^∥2\begin{aligned}z &= p_\theta(x) \\\hat{x} &= q_\phi(z) \\\mathcal{L} &= \frac{1}{2}\Vert x-\hat{x} \Vert_2\end{aligned}zx^L=pθ(x)=qϕ(z)=21∥x−x^∥2AE的x−>z−>x^x->z->\hat{x}x−>z−>x^是一一映射确定的关系，这就意味着作为一个生成模型他是不够格的，想象一下我有一批样本

2025-04-28 15:32:36 1864

qq_42002263的博客