Lumiere是一个文本到视频扩散模型,旨在合成展现真实、多样和连贯运动的视频,解决视频合成中的关键挑战。我们引入了一种空时U-Net架构,可以一次性生成整个视频的时间持续,通过模型的单次传递。这与现有的视频模型形成对比,后者合成远距离的关键帧,然后进行时间超分辨率处理,这种方法本质上使得全局时间一致性难以实现。通过部署空间和(重要的是)时间的下采样和上采样,并利用预训练的文本到图像扩散模型,我们的模型学会直接生成多个时空尺度下的全帧率、低分辨率视频。我们展示了最先进的文本到视频生成结果,并展示了我们的设计轻松促进了各种内容创作任务和视频编辑应用,包括图像到视频、视频修补和风格化生成。
数据统计
相关导航
暂无评论...