通过潜在扩散模型实现文本引导矢量草图合成

最新推荐文章于 2024-09-16 07:35:55 发布

远洋之帆

最新推荐文章于 2024-09-16 07:35:55 发布

阅读量1.2k

点赞数 18

CC 4.0 BY-SA版权

文章标签：人工智能计算机视觉机器学习计算图形深度学习矢量图算法

本文链接：https://blog.csdn.net/liangwqi/article/details/139016864

摘要

尽管主要在图像上进行训练，我们发现预训练的扩散模型在指导草图合成方面展现出了惊人的能力。在本文中，我们提出了DiffSketcher，这是一种创新的算法，它使用自然语言输入来创建矢量化手绘草图。DiffSketcher是基于预训练的文本到图像扩散模型开发的。它通过直接优化一组贝塞尔曲线来执行任务，使用扩展版的分数蒸馏采样（SDS）损失，这使得我们能够使用光栅级别的扩散模型作为优化参数化矢量化草图生成器的先验。此外，我们探索了嵌入在扩散模型中的注意力图，用于有效的笔画初始化，以加快生成过程。生成的草图展示了多个层次的抽象，同时保持了可识别性、基础结构和所绘主题的基本视觉细节。我们的实验表明，DiffSketcher的生成质量超过了先前的工作。

图1：上图：展示了我们提出的方法DiffSketcher生成的矢量草图的可视化。下图：展示了绘制过程的可视化。对于每个示例，我们展示了具有不同笔画数量的两个草图。

1 引言

简化表示，如草图和自然语言，是通过强调主题的本质来有效传达想法的强大工具。作为抽象概念的载体，自然语言传达了抽象的语义理解，而草图则体现了人类视觉的抽象表现。草图可以提供比自然语言更多的视觉细节，使概念更加具体。当设计师与客户讨论设计计划时，设计师可能会根据客户的描述绘制原型草图，以确保完全理解他/她的需求。如果能够自动学习文本到草图的过程，将大大降低相关劳动成本。

不幸的是，文本到草图生成的任务尚未被探索。一些研究集中在基于图像的草图生成上[3, 18, 45, 44]。其中一种方法是Info-drawing[3]，它将草图视为照片，并使用生成对抗网络（GAN）根据输入图像生成基于光栅的草图。它还引入了一种风格损失，以确保生成的草图具有与训练中使用的参考草图相似的风格。CLIPasso[45]提出了一种新颖的流程，通过可微光栅器优化语义损失来生成矢量草图。CLIPasso只能处理单一对象的图像，因此它的后续工作CLIPascene[44]扩展到了场景级图像。然而，所有这些方法都依赖于输入图像，并不直接从文本输入生成草图。此外，尽管这些方法能够从照片生成逼真的草图，但它们有一个限制，即不能生成新的内容。

最近在文本到图像生成方面的突破是由在数十亿图像-文本对上训练的扩散模型[23, 28, 30, 31]驱动的[34]。这些模型，以文本为条件，现在支持高保真、多样性和可控的图像合成。尽管如此，目前的文本到图像扩散模型无法生成高度抽象和矢量化的手绘草图（如图2所示）。我们从高度有效的文本到图像扩散模型和基于图像的草图生成器中汲取灵感，构建了文本和手绘草图这两种基本人类表达形式之间的桥梁，从而开发了我们提出的文本到草图生成器。

在这项工作中，我们提出了DiffSketcher，这是一种算法，可以根据自然语言文本输入合成新颖且高质量的手绘矢量草图。DiffSketcher不需要任何文本到草图的训练对或大型草图数据集。相反，我们利用预训练的扩散模型[30]的指导，将草图定义为一组贝塞尔曲线，并通过可微光栅器[16]优化曲线参数。DiffSketcher背后的关键思想是将从文本到图像生成模型中获得的先验知识转移到可微光栅器中。这允许使用语义一致性优化文本引导的草图，确保最终输出的草图与它们对应的文本输入一致且对齐。然而，充分利用预训练的扩散模型高效生成简单对象和复杂场景的高质量手绘草图是一项非平凡的任务。

为此，我们提出了三种策略来提高生成质量和效率：（1）提出了一种扩展的分数蒸馏采样（SDS）损失来指导曲线参数的优化。以前的工作使用CLIP损失优化矢量草图的参数。我们发现，扩展版的SDS损失可以产生更多样化的草图合成结果，并且可以与CLIP损失或LPIPS损失结合，提供额外的控制项。（2）探索扩散模型中嵌入的注意力图，以有效初始化笔画。如果每个笔画的起始点是随机初始化的，合成过程可能会非常耗时。因此，我们探索了不同的初始化策略，并提出使用U-Net[5]中扩散模型的交叉注意力图和自注意力图的融合产品来初始化曲线控制点，这与随机初始化相比显著提高了效率。（3）在优化贝塞尔曲线的过程中引入不透明度属性，以更好地模仿人类草图的风格，实现重笔和轻笔的效果。

总结我们的贡献有三个方面：（1）我们提出了一个文本到草图的扩散模型，名为DiffSketcher。据我们所知，它是第一个能够生成具有不同抽象层次的多样化和高质量矢量草图的扩散模型，适用于对象和场景级别。（2）我们提出了三种策略来提高生成质量和效率，包括扩展的SDS损失和注意力增强的笔画初始化策略。在合成过程中考虑了笔画的不透明度属性，以进一步改善视觉效果。（3）我们进行了广泛的实验，实验结果表明，我们的模型在草图质量和多样性方面优于其他模型。为未来的研究提供了深入的见解。

图2：DiffSketcher 生成的各种手绘草图及其对应的描述提示。DiffSketcher 通过分数蒸馏[24]从 LDM[30]复合图像中获取先验信息，并通过对具有不透明度属性的贝塞尔曲线集进行梯度下降，实现与人类草图相同的轻重绘制风格。我们提出的 DiffSketcher 允许在匹配相应文本语义的同时实现不同级别的抽象。在每个示例中，给定相同的文本提示和两个不同的随机种子，生成两个具有不同笔触数量的草图。红色单词表示用于初始化控制点的交叉注意力索引（关于交叉注意力的详细信息在第4.2节中介绍）。

2. 相关工作

草图合成。手绘草图通过人类的视觉感知以最小的抽象传达抽象概念。与纯粹的边缘图提取方法[2]不同，手绘草图旨在从结构和语义解释的角度呈现抽象的草图[3,45]。因此，旨在模仿人类绘画的计算草图方法考虑了广泛的草图表示，从基于输入图像边缘图[46,17,15,42,18,4]到更抽象的[9,8,1,7,26,45]，通常以向量格式表示。在生成向量草图的作品中，CLIPasso[45]和CLIPascene[44]基于输入图像，而其他则是无条件的。到目前为止，还没有先前的工作探索基于文本生成草图。

向量图形。我们的工作建立在 Li 等人引入的向量图形的可微分渲染器之上[16]。虽然传统上在向量图像上操作的图像生成方法需要基于向量的数据集，但最近的工作已经展示了如何使用可微分渲染器来规避这一限制[36,14,41,29,19]。此外，最近在视觉文本嵌入对比语言-图像预训练（CLIP）[27]方面的进展已经使许多成功的草图生成方法成为可能，例如CLIPDraw[7]、StyleCLIPDraw[32]、CLIP-CLOP[21]和CliPascene[44]。最近的一项工作VectorFusion[13]将可微分渲染器与扩散模型结合起来进行向量图形生成，例如图标和像素艺术。我们提出的算法 DiffSketcher 与 VectorFusion 有类似的想法，但我们的重点是根据自然语言提示生成物体和场景级别的草图。

扩散模型。去噪扩散概率模型（DDPMs）[37,39,11,40]，特别是那些基于文本的模型，在文本到图像的合成方面显示出了有希望的结果。例如，Classifier-Free Guidance（CFG）[12]已经改进了样本质量，并在大规模的扩散模型框架中被广泛使用，包括GLIDE[23]、Stable Diffusion[30]、DALL·E 2[28]和Imagen[31]。然而，网络规模数据集中的大多数可用图像都是光栅化的，这项工作遵循通过优化进行合成的框架，其中图像是通过在给定度量标准下进行评估时间优化而生成的。我们提出的算法 DiffSketcher 使用预训练的文本到图像扩散模型从自然语言输入生成手绘草图。这是通过将图像合成先验信息转移到可微分渲染器来实现的。

3. 预备知识

3.1 扩散模型

本节提供了扩散模型的简要概述，这是一种利用潜在变量逐渐将样本从噪声分布转换到目标数据分布的生成模型类[37,11]。扩散模型由两个组件组成：前向过程 $q$ 和反向过程或生成模型 $p$ 。前向过程，通常被建模为高斯分布，通过随时间添加噪声逐渐从输入数据 $x$ 中去除结构。另一方面，反向过程向从潜在变量 $z_t$ 开始的噪声添加结构。具体而言，生成模型被训练为从随机噪声 $p(zT)=N(0,I)p(z_T) = \mathcal{N}(0, I)$ 开始慢慢添加结构，具有转换 $pθ(zt−1∣zt)p_\theta(z_{t-1}|z_t)$ 。通过使用（加权）证据下界（ELBO）训练扩散模型，简化为针对参数 $θ\theta$ 的加权去噪得分匹配目标[11]：

$(θ,x)=Et∼U(0,1),ϵ∼N(0,I)[w(t)∥ϵ−ϵθ(αtx+σtϵ;t)∥2/2]\mathcal{L}_{\text {Diff }}(\theta, x)=\mathbb{E}_{t \sim \mathcal{U}(0,1), \epsilon \sim \mathcal{N}(0, I)}\left[w(t)\left\|\epsilon-\epsilon_{\theta}\left(\alpha_{t} x+\sigma_{t} \epsilon ; t\right)\right\|^{2} / 2\right]$ (1)

其中 $w (t)$ 是取决于时间步长 $t$ 的加权函数。我们的工作基于文本到图像的潜在扩散模型（LDM），该模型在给定文本嵌入 $y$ 的条件下学习 $ϵθ(zt;t,y)\epsilon_{\theta}(z_t; t, y)$ [30]。LDM 使用分类器无关指导（CFG）[12]，它联合学习一个无条件模型，通过指导缩放参数 $w$ 实现更高质量的生成：