多模态LLM

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架，利用多模态LLM的链式推理能力增强文本到图像扩散模型的组合性。该框架采用MLLM作为全局规划器，将复杂图像生成过程分解为多个子区域内的简单生成任务。同时提出了互补的区域扩散以实现区域化的组合生成。此外，在提出的RPG框架中闭环地集成了文本引导的图像生成和编辑，从而增强了泛化能力。大量实验证明，RPG-DiffusionMaster在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。特别地，RPG框架与各种MLLM架构（例如MiniGPT-4）和扩散骨干（例如ControlNet）兼容性广泛。

42 0

多模态LLM文本到图像生成编辑框架

PROMPT - AI导航（prompt.cn）是一个专注于AI领域的网址导航站，致力于为用户提供便捷、高效、智能的在线导航服务。包括AI工具、AI绘画、AI视频、AI语音、AI写作、AI办公、AI设计、AI编程、AI聊天、AI提示词、机器学习、深度学习、自然语言处理、智能推荐等多个领域，共计收录10000+个优质网站。

收录申请免责声明关于我们

引领智能未来，探索无限AI应用

多模态LLM