RERENDER A VIDEO是一种新颖的零样本文本引导的视频到视频翻译框架,用于将图像模型应用于视频领域。该框架包括两个部分:关键帧翻译和完整视频翻译。第一部分使用适应性扩散模型生成关键帧,并应用分层跨帧约束来确保形状、纹理和颜色的一致性。第二部分通过时间感知的补丁匹配和帧混合将关键帧传播到其他帧。我们的框架以低成本实现了全局风格和局部纹理的时间一致性(无需重新训练或优化)。该适应性与现有的图像扩散技术兼容,使我们的框架能够利用它们,例如使用LoRA自定义特定主题,并使用ControlNet引入额外的空间引导。大量实验证明了我们提出的框架在呈现高质量和时间一致性视频方面的有效性。
数据统计
相关导航
暂无评论...