StableIdentity
StableIdentity是一个基于大型预训练文本到图像模型的最新进展,能够实现高质量的以人为中心的生成。与现有方法不同的是,StableIdentity能够确保稳定的身份保留和灵活的可编辑性,即使在训练过程中只使用了每个主体的一张面部图像。它利用面部编码器和身份先验对输入的面部进行编码,然后将面部表示投射到一个可编辑的先验空间中。通过结合身份先验和可编辑性先验,学习到的身份可以在各种上下文中注入。此外,StableIdentity还设计了一个掩蔽的两阶段扩散损失,以提升对输入面部的像素级感知,并保持生成的多样性。大量实验证明,StableIdentity的性能优于以往的定制方法。学习到的身份还可以灵活地与ControlNet等现成模块结合使用。值得注意的是,我们是首个能够直接将从单张图像学习到的身份注入到视频/3D生成中而无需微调的方法。我们相信,StableIdentity是统一图像、视频和3D定制生成模型的重要一步。