GAIA
GAIA旨在从语音和单个肖像图像合成自然的对话视频。我们引入了GAIA(Avatar的生成AI),它消除了对话头像生成中的领域先验。GAIA分为两个阶段:1)将每帧分解为运动和外观表示;2)在语音和参考肖像图像的条件下生成运动序列。我们收集了大规模高质量的对话头像数据集,并在不同规模上对模型进行了训练。实验结果验证了GAIA的优越性、可扩展性和灵活性。方法包括变分自动编码器(VAE)和扩散模型。扩散模型被优化为在语音序列和视频片段中的随机帧的条件下生成运动序列。GAIA可用于不同的应用,如可控对话头像生成和文本指导的头像生成。