Diffusion Model with Perceptual Loss

该论文介绍了一种基于感知损失的扩散模型，通过将感知损失直接纳入扩散训练中来提高样本质量。对于有条件生成，该方法仅改善样本质量而不会影响条件输入，因此不会牺牲样本多样性。对于无条件生成，这种方法也能提高样本质量。论文详细介绍了方法的原理和实验结果。

数据统计

相关导航

Diffusion-RWKV

Diffusion-RWKV是一种基于RWKV架构的扩散模型,旨在提高扩散模型的可扩展性。它针对图像生成任务进行了相应的优化和改进,可以生成高质量的图像。该模型支持无条件和类条件训练,具有较好的性能和可扩展性。

Upscale-A-Video

Upscale-A-Video是一个基于扩散的模型，通过将低分辨率视频和文本提示作为输入来提高视频的分辨率。该模型通过两个关键机制确保时间上的一致性：在局部，它将时间层集成到U-Net和VAE-Decoder中，保持短序列的一致性；在全局，引入了一个流引导的循环潜在传播模块，通过在整个序列中传播和融合潜在信息来增强整体视频的稳定性。由于扩散范式，我们的模型还通过允许文本提示指导纹理创建和可调噪声水平来平衡恢复和生成，实现了保真度和质量之间的权衡。大量实验证明，Upscale-A-Video在合成和真实世界基准以及AI生成的视频中均超越了现有方法，展现出令人印象深刻的视觉逼真和时间一致性。

X-Adapter

X-Adapter是一个通用升级工具，可以使预训练的插件模块（例如ControlNet、LoRA）直接与升级的文本到图像扩散模型（例如SD-XL）配合使用，无需进一步重新训练。通过训练额外的网络来控制冻结的升级模型，X-Adapter保留旧模型的连接器，并添加可训练的映射层以连接不同版本模型的解码器进行特征重映射。重映射的特征将作为升级模型的引导。为了增强X-Adapter的引导能力，我们采用空文本训练策略。在训练后，我们还引入了两阶段去噪策略，以调整X-Adapter和升级模型的初始潜变量。X-Adapter展示了与各种插件的通用兼容性，并使不同版本的插件能够共同工作，从而扩展了扩散社区的功能。我们进行了大量实验证明，X-Adapter可能在升级的基础扩散模型中有更广泛的应用。

AnyDoor AI

AnyDoor AI是一款突破性的图像生成工具,其设计理念基于扩散模型。它可以无缝地将目标物体嵌入到用户指定的新场景位置。AnyDoor先使用分割器去除目标物体的背景,然后使用ID提取器捕捉身份信息(ID令牌)。这些信息以及目标物体的细节被输入到一个预训练的文本到图像扩散模型中。在提取的信息和细节的指导下,该模型生成所需的图像。这个模型的独特之处在于,它不需要为每个物体调整参数。此外,它强大的自定义功能允许用户轻松地在场景图像中定位和调整物体,实现高保真和多样化的零次射物体-场景合成。除了照片编辑之外,该工具在电子商务领域也具有广阔的应用前景。借助AnyDoor,“一键更换服装”等概念得以实现,使用真人模型进行衣着互换,为用户提供更加个性化的购物体验。从更广泛的意义上说,AnyDoor也可以被理解为“一键Photoshop合成”或Photoshop中的“上下文感知移动工具”。它具有无缝图像集成和交换场景物体以及将图像对象放置到目标位置的功能。通过利用先进技术的力量,AnyDoor从本质上重新定义了图像操作,承诺在日常交互中提供多种更人性化的应用。

ELLA

ELLA（Efficient Large Language Model Adapter）是一种轻量级方法，可将现有的基于CLIP的扩散模型配备强大的LLM。ELLA提高了模型的提示跟随能力，使文本到图像模型能够理解长文本。我们设计了一个时间感知语义连接器，从预训练的LLM中提取各种去噪阶段的时间步骤相关条件。我们的TSC动态地适应了不同采样时间步的语义特征，有助于在不同的语义层次上对U-Net进行冻结。ELLA在DPG-Bench等基准测试中表现优越，尤其在涉及多个对象组合、不同属性和关系的密集提示方面表现出色。

Emu Video

Emu Video是一种基于扩散模型的简单文本到视频生成方法，将生成过程分解为两个步骤：首先根据文本提示生成图像，然后根据提示和生成的图像生成视频。分解生成方式能够高效训练高质量的视频生成模型。与以往的方法相比，我们的方法只需使用两个扩散模型即可生成分辨率为512像素、播放速度为每秒16帧、时长为4秒的视频。

暂无评论

暂无评论...

Diffusion Model with Perceptual Loss翻译站点

数据统计

相关导航

暂无评论

热门网址

热门标签