Controlling Text-to-Image Diffusion研究了如何有效引导或控制强大的文本到图像生成模型进行各种下游任务。提出了正交微调(OFT)方法,可以保持模型的生成能力。OFT可以保持神经元之间的超球面能量不变,防止模型坍塌。作者考虑了两种重要的微调任务:主体驱动生成和可控生成。结果表明,OFT方法在生成质量和收敛速度上优于现有方法。
数据统计
相关导航
RPG-DiffusionMaster
RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的链式推理能力增强文本到图像扩散模型的组合性。该框架采用MLLM作为全局规划器,将复杂图像生成过程分解为多个子区域内的简单生成任务。同时提出了互补的区域扩散以实现区域化的组合生成。此外,在提出的RPG框架中闭环地集成了文本引导的图像生成和编辑,从而增强了泛化能力。大量实验证明,RPG-DiffusionMaster在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。特别地,RPG框架与各种MLLM架构(例如MiniGPT-4)和扩散骨干(例如ControlNet)兼容性广泛。
暂无评论...