SceneWiz3D是一种新颖的方法,可以从文本中合成高保真的3D场景。它采用混合的3D表示,对对象采用显式表示,对场景采用隐式表示。用户可以通过传统的文本到3D方法或自行提供对象来生成对象。为了配置场景布局并自动放置对象,我们在优化过程中应用了粒子群优化技术。此外,在文本到场景的情况下,对于场景的某些部分(例如角落、遮挡),很难获得多视角监督,导致几何形状劣质。为了缓解这种监督缺失,我们引入了RGBD全景扩散模型作为额外先验,从而实现了高质量的几何形状。广泛的评估支持我们的方法实现了比以前的方法更高的质量,可以生成详细且视角一致的3D场景。
数据统计
相关导航
RERENDER A VIDEO
RERENDER A VIDEO是一种新颖的零样本文本引导的视频到视频翻译框架,用于将图像模型应用于视频领域。该框架包括两个部分:关键帧翻译和完整视频翻译。第一部分使用适应性扩散模型生成关键帧,并应用分层跨帧约束来确保形状、纹理和颜色的一致性。第二部分通过时间感知的补丁匹配和帧混合将关键帧传播到其他帧。我们的框架以低成本实现了全局风格和局部纹理的时间一致性(无需重新训练或优化)。该适应性与现有的图像扩散技术兼容,使我们的框架能够利用它们,例如使用LoRA自定义特定主题,并使用ControlNet引入额外的空间引导。大量实验证明了我们提出的框架在呈现高质量和时间一致性视频方面的有效性。
暂无评论...