HyperHuman
HyperHuman是一个生成逼真的人类图像的模型。该模型通过捕捉人类图像的结构性特征,从粗略的身体骨架到细粒度的空间几何形状,生成具有连贯性和自然性的人类图像。HyperHuman包括三个部分:1)构建一个大规模的人类数据集HumanVerse,其中包含340M张图像和全面的注释,如人体姿势、深度和表面法线;2)提出一个潜在结构扩散模型,该模型同时去噪深度、表面法线和合成的RGB图像。我们的模型在一个统一的网络中强制学习图像外观、空间关系和几何形状,模型中的每个分支都具有结构感知性和纹理丰富性;3)最后,为了进一步提高视觉质量,我们提出了一个结构引导的细化器,用于更详细的高分辨率生成。大量实验证明,我们的模型在各种场景下生成了具有高真实感和多样性的人类图像,达到了最先进的性能。