扩散模型(diffusion)论文笔记(2023.3)

HS-Diffusion:学习一种语义引导的人头交换扩散模型
HS-Diffusion: Learning a Semantic-Guided Diffusion Model for Head Swapping

Qinghe Wang等 字节&天大

针对问题

基于图像的 人头交换 任务:将一个源头部完美地缝合到另一个源身体上。

这项任务面临两大挑战:

  1. 在生成无缝过渡区域的同时,从各种来源保留头部和身体。

  2. 迄今为止没有配对头交换数据集和基准数据集。

提出方法

HS-diffusion

为了让过渡区域体现无缝性,我们分别训练了一个 语义引导的潜在扩散模型( SG-LDM )和一个 语义布局生成器。基于图像的头部交换总结为以下步骤:

( i ) 将语义布局 与头部掩模 和身体掩模 混合;

( ii ) 通过语义布局生成器绘制过渡区域。

( iii ) 从 中采样一个随机噪声作为,然后与前向去噪过程中采样的 混合。以下去噪步骤相同。

( iv ) 在每个去噪步骤中,将混合噪声与语义潜在表示 连接 来对混合噪声进行条件化处理

( v )利用SG - LDM从 去噪并解码为 结果图像。

语义引导的LDM(SG-LDM)

SG-LDM

对DM的理论还不甚了解,先通过此论文的描述学习一二。

潜在扩散模型(LDM)可以训练生成以语义布局为条件指导的图像( SGLDM )。

SG - LDM由3个部分组成: * 预训练自编码器 * 去噪U - Net * 条件编码器

更具体地说,编码器 可以将一个半体图像 编码为一个潜编码 (即。解码器 可以从潜码中重建出半身图像。

通过高质量的重构,扩散过程可以工作在低维的隐空间中。可以直接采样为 。 条件编码器将布局 编码为一个潜在表示作为语义引导,并在每个去噪步骤与连接作为的输入。受益于的空间级感应偏差,底层去噪U - Net 可以通过2D卷积层构建。而将进一步高效地聚焦于潜在空间中的低维空间级表示,并通过变分下界的重加权变体进行优化。

收敛时,在语义指导下迭代将zT≤N ( 0 , I)去噪到z0,然后解码 可以得到生成的半身图像。

Head_cover增强策略

为了模拟头像交换中头发遮挡颈部和身体的情况,设计了Head_cover增强策略,分别训练SG - LDM和语义布局生成器。

从训练数据集中随机采样两个半身语义布局 ,并使用的头部区域覆盖的颈部和身体区域。而被覆盖的区域将被替换为背景类。由于随机采样的 在头部、颈部和身体区域具有不同的尺度,因此 可能在头部和颈部区域保持不变或小/大部分被覆盖。

语义布局生成器

为了给SG - LDM换头提供合理的语义指导,我们设计了一个嵌套U - Net架构的语义布局生成器 ,该生成器以自监督的方式进行训练。为了聚焦于过渡区域而不影响其余部分,我们利用焦点映射的思想为增加一个额外的输出。通过一个逐像素的交叉熵损失和一个LSGAN损失来激励Glayout自适应地修复过渡区域

基于提供的合理的语义指导,SGLDM将在每次去噪过程中进一步自适应地微调边界像素以进行细粒度的头交换。

颈部对齐技巧

测量中两个中心坐标之间的水平偏差,并移动源人头对准源人体,相当于对齐了颈部的上边界。 (无语)

结论

本文提出了基于图像的头部交换框架,该框架由 语义引导的潜在扩散模型语义布局生成器组成。

我们以自监督的方式用提出的Head-cover增强来训练我们的框架。并且所提出的颈部对齐技巧将源头部对齐到下游模型可以产生更几何逼真的头部交换结果的位置。

此外,我们构建了一个新的基于图像的头部交换基准,并提出了FID ( Mask - FID和FocalFID)的两个评价指标的改进以进一步比较。

T2I - Adapter:挖掘文本-图像扩散模型的可控性
T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

Chong Mou等 清深&腾讯

针对问题

虽然文本-图像生成可以达到很好的合成质量,但严重依赖于准确的 提示,生成管道也缺乏用户灵活 控制能力,无法指导生成图像的结构/风格以准确地实现用户的想法。

提出方法

初步:稳定扩散

该方法基于目前SOTA T2I扩散模型(稳定扩散模型,SD)。SD是一个两阶段扩散模型,包含一个自编码器和一个UNet去噪器

第一阶段,SD训练了一个自编码器,该自编码器可以将自然图像转换到潜在空间,然后进行重建。

第二阶段,SD训练一个改进的UNet去噪器,直接在隐空间中进行去噪。

在推理过程中,输入隐映射 由随机高斯分布生成。给定 ,它在每一步t输出一个噪声估计并且从中删减掉。最终结果作为无噪声的隐层输入到自编码器的解码器中生成自然图像。

在条件部分,SD利用预训练的CLIP文本编码器(CLIP Text Encoder)将文本输入作为嵌入序列嵌入。然后利用交叉注意力模型结合到去噪过程中。

T2IAdapter架构

T2I-Adapter

文章提出学习简单的小型T2I适配器来对齐T2I模型中的内部知识和外部控制信号,同时冻结原始的大型T2I模型。Adapter用于从不同condition中提取指导。预训练的扩散模型具有固定的参数,根据文本条件和条件生成自然图像。

T2I-Adapter由4个特征提取模块和3个下采样模块组成以改变特征分辨率。原始条件输入的分辨率为512 × 512,利用 像素逆混洗 将其下采样为64 × 64。在每个block中,利用一个卷积层和两个残差块( RB )从不同分辨率(即64 × 64、32 × 32、16 × 16、8 × 8)的输入条件中提取结构特征。然后在U - Net的编码器中加入中间特征。注意中的4个特征图也是4个不同分辨率下的中间输出。

模型优化在优化过程中,我们固定SD中的参数,只优化T2I适配器。优化过程与SD类似。

结论

我们提出学习简单且小的T2I - Adapter来将T2I模型中的内部知识与外部控制信号对齐,同时冻结原始的大T2I模型。这样就可以根据不同的条件训练各种适配器,实现丰富的控制和编辑效果。此外,所提出的T2I - Adapter具有可组合性和泛化能力等具有实用价值的优良特性。

Collage Diffusion 拼贴扩散
Collage Diffusion

斯坦福大学

针对问题

对具有多个对象的场景的图像输出进行精确控制。

用户通过定义拼贴来控制图像生成。拼贴(collage):成对的文本提示与有序的图层序列,其中每图层都定义为 RGBA 图像和相应的文本提示。

主要挑战:协调输入拼贴,同时限制某些对象属性(空间位置、视觉特征)的变化,但允许其他对象属性(方向、光照、透视、遮挡)的变化。

目标:生成用户所需场景组成的高质量全局协调图像,无论是在空间保真度方面,即保留所需对象的位置和大小,还是在外观保真度上,即保留对象的视觉特征

问题定义

拼贴collage 的定义:

  1. 全拼贴文本字符串 ,描述要生成的整个图像(“一个有米饭、毛豆、生姜和寿司的便当盒”)

  2. n 个拼贴图层的序列 ,从后到前排序, 具有以下属性:

    1. RGBA 图像 (寿司的 alpha-mask输入图像),具有 alpha 层 .

    2. 描述图层的文本字符串 ,它是 的子串(“寿司”).

给定拼贴 作为输入,希望生成输出图像 具有以下特性:

  1. 全局协调性 具有真实图像的一致性。输出图像在场景对象之间具有一致的透视、光照和遮挡。

  2. 空间保真度 符合拼贴中指定的 场景构图。对于任意图层 ,图层文本 描述的对象应当生成在 的适当区域。

  3. 外观保真度。对于所有图层 ,除了匹配图层文本 之外,描述图层内容的 区域与 共享视觉特征。

基于先前基于扩散的技术来约束生成图像的空间布局和单个对象的外观,允许图像的所有其他属性在协调过程中发生变化。

提出方法

全局图像协调

先说说SDEdit

Meng, C., Song, Y., Song, J., Wu, J., Zhu, J.-Y., and Ermon, S. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073 (2021).

如果不用拼贴的方式,只是提供SDEdit算法就足够了。

它通过将标准差为 的高斯噪声添加到 来提高图像质量,然后对噪声图像 进行去噪以生成输出图像 ,使用text-condition扩散 U-Net 模型 作为先验图像,其中 是噪声输入图像, 是时间 t 的噪声水平, 是文本条件。

问题:一些对象没有在适当的位置生成,并且视觉特征的输入图像未保留。

而拼贴输入的 文本信息 和 视觉信息 对应于图像的每个区域,提供了对生成图像的各个组件进行更细粒度控制所需的输入。

空间保真度:使用 交叉注意机制

为了在所需位置生成具有所需对象的图像,Collage Diffusion 修改了文本条件 U-Net 模型 Dθ 中的文本-图像交叉注意力。

先说明两个概念:

  • 全局token:开始标记、结束标记、输入字符串中的几个单词和填充标记这些 缺乏对特定区域影响的token。

  • 图层token:特定于某个图层的token。

Collage Diffusion 根据相应图层的可见位置 限制 层token 对图像区域的影响,从而对图像生成过程进行约束。

像素坐标(a,b)处的可见图层:在像素坐标 (a, b) 处具有非零 alpha 的 n 个图层中最高的图层。

注意力图 与权重标量 一起,被合并到 softmax 操作中。的权重越大,注意力图 对图像结构的影响就越大。权重 根据整个扩散过程中的噪声水平 而变化。将此修改后的扩散模型表示为

负注意力图 用于防止图层token影响所需位置之外的区域,而正注意力图 用于相对于全局token增加图层token对区域的影响。

外观保真度:使用 文本反转

通常情况下,图层的图层文本 无法充分捕捉图层图像 的外观。起始图像 确实为每一层的所需外观提供了一些指导,但是当向图像添加噪声时, 的影响会降低。因此,为了保持视觉保真度,本文的方法细化图层文本以更准确地捕捉图层的外观。

为此,Collage Diffusion 采用了一种类似于文本反转的方法:

Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, A. H., Chechik, G., and CohenOr, D. An image is worth one word: Personalizing text-to-image generation using textual inversion. arXiv preprint arXiv:2208.01618 (2022).

从每个图层 学习出 修饰符token 从而使每一层的文本描述 专门用于图像 ,并将其添加到该图层的文本描述之前: 作为描述图层 中对象的附加形容词/副词,受现有图层描述 的约束。是通过优化以下损失来学习的:

目标图像 是通过对输入拼贴 C 的前 层进行 alpha 合成的,图层 alpha 掩码 将损失限制在 的相关区域。

用每层噪声 控制协调保真度权衡

图层输入允许用户在每个对象的基础上控制协调保真度权衡,用户可以指定在每个图层的协调过程中添加的噪声量。

用户为每图层 设置噪声水平 ,这些每图层噪声水平被转换为单通道噪声图像 是像素 (a, b) 处的 h 值。将高斯模糊操作应用于 以平滑噪声水平急剧变化的边界。

为了根据 h 将不同级别的噪声添加到图像的不同区域,控制输入图像每图层的真实度 - 保真度权衡,本文修改了扩散过程:

其中 是求解器在时间 的原始输出, 是求解器在时间 的修改输出, 是在时间 基于噪声图像计算的二进制掩码。

编辑生成图像中的单个图层

对于由大量对象组成的场景,可能很难通过大型输出图库来查找场景中所有对象看起来都完全符合要求的实例。但是用户可以简单地选择其中大部分对象看起来都符合要求的图像,然后通过为剩余的对象生成替代可能,从而改进图像。

图层噪声控制使用户能够通过将应保持不变的层的噪声级别设置为 t = 0 来保持输入拼贴画的一部分“固定”。使用 Collage Diffusion 生成图像后,可以通过创建新的两层拼贴来编辑单个对象,其中生成的图像是背景层,要重新生成的对象是前景层。为背景层设置每层噪声 t = 0,为前景层设置任意期望的噪声水平,为前景层生成各种可能性,并与固定背景层协调和组合。

结论

Collage Diffusion 以拼贴的形式引入了一种新的控制形式,即表达用户所需空间布局以及生成图像中各个对象的视觉特征细节的图像组合。 Collage Diffusion 采用算法技术来限制生成对象的空间布局以及这些对象的视觉特征,使用户能够利用简单而传统的拼贴艺术技术生成视觉上引人注目的图像。

LDM:基于潜在扩散模型的高分辨率图像合成
High-Resolution Image Synthesis with Latent Diffusion Models

CVPR 2022.6

针对问题

首先,训练一般 DM 模型需要大量的计算资源,只能用于该领域的一小部分。其次,评估一个已经训练好的模型在时间和内存上也很昂贵,因为相同的模型架构必须按顺序运行大量步骤。因此,本文旨在不损害 DM 性能的情况下减少 DM 的计算需求。

提出方法

明确分离压缩与生成学习阶段。利用自动编码模型学习一个空间,该空间在感知上等同于图像空间,但显着降低了计算复杂度。

感知图像压缩

感知压缩模型由一个自动编码器组成,该自动编码器通过 感知损失 和 基于补丁的对抗目标 的组合进行训练。这确保了通过 加强局部真实性 将重建限制在图像流形中,并避免仅依赖像素空间损失(例如 L2 或 L1 目标)引入的模糊。

更准确地说,给定 RGB 空间中的图像 ,编码器 编码为潜在表示 ,解码器 从潜在表示重建图像,,其中 Missing superscript or subscript argumentx ∈ \mathbb^{h×w×3}。编码器通过因子 对图像进行下采样。

潜在扩散模型

扩散模型是概率模型,旨在通过逐渐对正态分布变量进行去噪来学习数据分布 ,这对应于学习长度为 的固定马尔可夫链的逆过程。对于图像合成,模型依赖于 变分下界的重新加权变体。这些模型可以解释为去噪自动编码器的等权重序列 ,用于预测其输入 的去噪变体,其中 是输入 的噪声版本。相应的目标可以简化为:

潜在表示的生成模型。 通过训练得到的由 组成的感知压缩模型,我们现在可以访问一个高效的低维潜在空间,其中高频的、不易察觉的细节被抽象掉了。

模型的网络主干 时间条件 UNet。由于正向过程是固定的,在训练过程中可以从 中有效地获得 ,并且可以使来自 的样本单次通过从而解码到图像空间。

调节机制

我们通过使用交叉注意力机制增强其底层 UNet 主干,将 DM 转变为更灵活的条件图像生成器,这对于学习各种输入模式的基于注意力的模型是有效的。引入了一个领域特定编码器 对输入进行预处理,它将 投射到一个中间表示 ,然后通过一个映射到 UNet 的中间层交叉注意力层,

LDM

通过以下方式学习条件 LDM:

结论

潜在扩散模型可以在不降低质量的情况下显著提高去噪扩散模型的训练和采样效率。

扩散自动编码器:有意义和可解码的表示
Diffusion Autoencoders: Toward a Meaningful and Decodable Representation

CVPR 2022.6

摘要

本文探讨了使用 DPM 进行表示学习的可能性,并通过自动编码器提取输入图像的有意义且可解码的表示。我们的关键思想是使用可学习的编码器来发现高级语义,并使用 DPM 作为解码器来对剩余的随机变化进行建模。我们的方法可以将任何图像编码成两部分的潜在代码,其中第一部分在语义上是有意义的和线性的,第二部分捕获随机细节,允许精确的重建。这种两级编码提高了去噪效率,并能够推进各种下游任务。

论文背景

本文提出了一种基于 diffusion 的自动编码器,它利用强大的 DPM 进行可解码表示学习。

找到可解码的有意义的表示需要捕获 高级语义低级随机变化。特别是,我们使用去噪扩散隐式模型 (DDIM) 的条件变体作为解码器,并将潜在代码分成两个子代码。第一个“语义”子码是紧凑的,并使用 CNN 编码器推断,而第二个 “随机”子码 是通过反转我们以语义子码为条件的 DDIM 变体的生成过程来推断的。与其他 DPM 相比,DDIM 将前向过程修改为非马尔可夫过程,同时保留 DPM 的训练目标。这种修改允许将图像确定性地编码为其相应的初始噪声,这代表了我们的随机子代码。

提出方法

为了追求有意义的潜在代码,我们设计了一个以附加潜在变量 为条件的条件 DDIM 图像解码器 ,以及学习映射的语义编码器 ,能够将输入图像 映射到 有语义的 。在这里,条件 DDIM 解码器将潜在变量 作为输入,它由高级“语义”子代码 zsem 和低级“随机”子代码 组成,通过反转生成过程推断DDIM。在此框架中,DDIM 充当解码器和随机编码器。概览如图所示。

扩散自编码器

本文的 的 向量,类似于 StyleGan 的 Style vector,可以对全局语义进行编码。

基于diffusion的解码器

我们的条件 DDIM 解码器 接收输入 z = (z_{sem}, x_T ) 以生成输出图像。该解码器是一个条件 DDIM,对 建模。

自适应组归一化层 (AdaGN) 调节 UNet。 它通过在归一化特征映射 上应用通道缩放和移位来扩展组归一化。AdaGN 以 t 和 zsem 为条件:

自适应组归一化就是对输入h先进行归一化,再进行仿射变换。变换参数是从条件学出来的。

语义编码器

语义编码器 的目标是将输入图像汇总为描述性向量 ,并提供必要的信息以帮助解码器 去噪和预测输出图像。本文没有为这个编码器假设任何特定的架构;在实验中,这个编码器与我们的 UNet 解码器的前半部分共享相同的结构。

随机编码器

除了解码之外,我们的条件 DDIM 还可用于通过向后运行其确定性生成过程,将输入图像编码为随机特征

可以将此过程视为随机编码器,因为鼓励 xT 仅对 zsem 遗漏的信息进行编码,zsem 压缩随机细节的能力有限。

通过使用语义编码器随机编码器,我们的自动编码器可以捕获输入图像的最后细节,同时还为下游任务提供高级表示

使用扩散自动编码器进行采样

解码器以 为条件 ,扩散自动编码器不再是生成模型。因此,为了从我们的自动编码器中采样,我们需要一种额外的机制来从潜在分布中采样 。本文选择将另一个 DDIM,称为latent DDIM ,来拟合 的分布。

首先训练语义编码器 (φ) 和图像解码器 (θ),直到收敛。

然后,固定语义编码器,训练latent DDIM (ω)。在实践中,由潜在 DDIM 建模的潜在分布首先被归一化为零均值和单位方差。因此,来自扩散自动编码器的无条件采样是通过从潜在 DDIM 中采样 并将其非标准化,然后采样 ,最后使用解码器解码 z = (z_{sem}, xT) 来完成的。

结论

扩散自编码器 可以输入图像中分别推断出 语义信息 和 随机信息。本工作的潜在表示能够提供精确的解码,同时包含对下游任务很有用的紧凑语义。


扩散模型(diffusion)论文笔记(2023.3)
http://example.com/2023/03/08/diffusion人脸/
作者
Melrose Wei
发布于
2023年3月8日
许可协议