Motion-I2V
Motion-I2V是一种全新的框架,用于实现一致且可控的图像到视频生成(I2V)。与以往直接学习复杂图像到视频映射的方法不同,Motion-I2V将I2V分解为两个阶段,并采用显式运动建模。在第一阶段,我们提出了基于扩散的运动场预测器,专注于推断参考图像像素的轨迹。在第二阶段,我们提出了增强的运动增强时间注意力,以增强视频潜在扩散模型中有限的一维时间注意力。该模块可以在第一阶段预测的轨迹的指导下,有效地将参考图像特征传播到合成帧。与现有方法相比,Motion-I2V即使在存在大运动和视角变化的情况下,也能生成更一致的视频。通过为第一阶段训练稀疏轨迹控制网络,Motion-I2V可以支持用户精确控制运动轨迹和运动区域,具有稀疏轨迹和区域注释的控制能力。这比仅依赖文本说明更可控。此外,Motion-I2V的第二阶段自然地支持零样本视频到视频转换。定性和定量比较表明,Motion-I2V在一致且可控的图像到视频生成方面优于先前的方法。