语音驱动

Imitator是一种新颖的个性化语音驱动的3D面部动画方法。通过给定音频序列和个性化风格嵌入作为输入，我们生成具有准确唇部闭合的个人特定运动序列，用于双唇辅音（'m'，'b'，'p'）。可以通过短参考视频（例如5秒）计算主体的风格嵌入。

GAIA旨在从语音和单个肖像图像合成自然的对话视频。我们引入了GAIA（Avatar的生成AI），它消除了对话头像生成中的领域先验。GAIA分为两个阶段：1）将每帧分解为运动和外观表示；2）在语音和参考肖像图像的条件下生成运动序列。我们收集了大规模高质量的对话头像数据集，并在不同规模上对模型进行了训练。实验结果验证了GAIA的优越性、可扩展性和灵活性。方法包括变分自动编码器（VAE）和扩散模型。扩散模型被优化为在语音序列和视频片段中的随机帧的条件下生成运动序列。GAIA可用于不同的应用，如可控对话头像生成和文本指导的头像生成。

58 0

图像合成头像生成语音驱动

PROMPT - AI导航（prompt.cn）是一个专注于AI领域的网址导航站，致力于为用户提供便捷、高效、智能的在线导航服务。包括AI工具、AI绘画、AI视频、AI语音、AI写作、AI办公、AI设计、AI编程、AI聊天、AI提示词、机器学习、深度学习、自然语言处理、智能推荐等多个领域，共计收录10000+个优质网站。

收录申请免责声明关于我们

引领智能未来，探索无限AI应用

语音驱动