该产品提供了一种新颖的框架,用于平滑跳切,特别是在对话视频中。它利用视频中主体的外观,通过 DensePose 关键点和面部标志驱动的中级表示来融合其他源帧中的信息。为了实现运动,它在切割周围的端帧之间插值关键点和标志。然后使用图像转换网络从关键点和源帧合成像素。由于关键点可能包含错误,因此提出了一种跨模态注意机制,以选择和为每个关键点挑选最合适的源。通过利用这种中级表示,我们的方法可以比强视频插值基准获得更强的结果。我们在对话视频的各种跳切上展示了我们的方法,例如切除填充词、暂停,甚至随机切割。我们的实验表明,即使在对话头部旋转或剧烈移动的挑战性情况下,我们也可以实现无缝过渡。
数据统计
相关导航
Generative Powers of Ten
Generative Powers of Ten是一种利用文本到图像模型生成多尺度一致内容的方法,能够实现对场景的极端语义缩放,例如从森林的广角景观视图到树枝上昆虫的微距拍摄。这种表示方式使我们能够渲染连续缩放视频,或者交互式地探索场景的不同尺度。我们通过一种联合多尺度扩散采样方法实现这一点,该方法鼓励在不同尺度之间保持一致性,同时保留每个单独采样过程的完整性。由于每个生成的尺度都由不同的文本提示指导,我们的方法能够实现比传统的超分辨率方法更深层次的缩放,后者可能难以在完全不同的尺度上创建新的上下文结构。我们在图像超分辨率和外部绘制的替代技术上对我们的方法进行了定性比较,并表明我们的方法在生成一致的多尺度内容方面最为有效。
暂无评论...