CustomVideo是一个新颖的框架,旨在生成在多个主题引导下保持身份的视频。该产品首先鼓励多个主题的共同出现,然后通过基本的文本到视频扩散模型设计了一个简单而有效的注意力控制策略,以在扩散模型的潜在空间中解开不同的主题。此外,该产品还通过从给定的参考图像中分割对象并为注意力学习提供相应的对象掩码,帮助模型专注于特定的对象区域。同时,他们还收集了一个多主题文本到视频生成数据集作为全面的基准,其中包括69个个体主题和57个有意义的对。大量的定性、定量和用户研究结果表明,与先前的最先进方法相比,我们的方法具有显著优势。
数据统计
相关导航
暂无评论...