名称

通义万相(亦称通义万相Wan系列模型)

所属公司

阿里巴巴集团旗下的通义实验室(原阿里云达摩院)研发。

概述

通义万相是阿里巴巴通义大模型家族中的多模态视觉内容生成平台。其核心定位是推动AIGC(人工智能生成内容)技术的普惠化与工业化应用,通过先进的生成式人工智能技术,将复杂的专业级视觉内容创作(如图像、视频)转化为简单、高效的智能化流程。平台集成了从静态图像生成到动态视频创作的全套能力,旨在显著降低影视、广告、设计等领域的创作门槛,让个人用户与企业都能便捷地生产高质量、电影级质感的视觉内容。
万相

技术特点

  • 创新的模型架构:系列模型演进中采用了多项前沿架构。早期基于组合式生成模型(Composer),可将图像的设计元素(如风格、构图)解耦与重组。后续的Wan2.2等版本引入了混合专家(Mixture-of-Experts, MoE)架构,通过高噪声专家与低噪声专家的分工协作,在保证生成质量的同时提升计算效率。视频生成核心则基于扩散时间变换器(DiT)架构与高效的3D变分自编码器(VAE),实现对视频时空信息的有效建模与高质量编解码。
  • 原生多模态融合:自Wan2.5版本起,采用统一的多模态架构,在同一框架下支持文本、图像、视频、音频多种模态的联合理解与生成。这使得模型能够实现原生音画同步,根据画面内容自动生成匹配的人声、音效与背景音乐,或根据音频驱动生成口型、表情精准匹配的视频。
  • 电影级可控生成:创新性地提出了电影级美学控制系统,将专业的光影、色彩、镜头语言等元素编码为可控参数,使用户能够通过提示词进行细粒度的视觉风格控制。同时,模型具备强大的物理规律模拟能力,能够逼真还原真实世界的运动、碰撞等物理现象。
  • 角色扮演与特征迁移:Wan2.6版本引入了国内首个角色扮演功能。该技术通过对参考视频进行多模态联合建模,提取主体的时序情绪、姿态、多角度视觉特征以及音色、语速等声学特征,在生成阶段作为控制条件,实现从画面到声音的全维度一致性保持与迁移,支持生成单人、多人及人与物合拍的定制化视频。
  • 高效训练与开源策略:模型在超大规模的多模态数据集上进行训练,并在迭代中持续扩充高质量的视频与图像数据。阿里巴巴积极推行模型开源策略,将包括Wan2.1、Wan2.2在内的多个版本在Apache 2.0等协议下全面开源,推动开发者生态建设与技术普及。

主要功能

  • 文生视频:根据详细的文本描述(提示词),生成包含复杂场景、人物动作及专业运镜的影视级短视频。
  • 图生视频:上传一张静态图片,结合运动描述,驱动图片中的主体(人物、动物、物体等)生成连贯、自然的动态视频。
  • 音频驱动视频生成:仅需一张人物或角色图片和一段音频,即可生成面部表情自然、口型与音频高度同步的数字人视频,支持真人、卡通、动物等多种形象。
  • 角色扮演与视频融合:上传包含人脸的参考视频,可学习其外观与表演特征,生成该“数字角色”出演全新剧情的内容,实现高质量的视频换脸与表演迁移。
  • 智能分镜与多镜头生成:可根据简单的剧情描述,自动规划并生成包含特写、中景、全景等多镜头切换的连贯短片,保持主体、场景与氛围的一致性。
  • 图像生成与编辑:支持文生图、相似图生成、图像风格迁移、专业级图像编辑以及创意艺术字生成等功能。
  • 长视频生成与拓展:支持单次生成较长时间的视频(如15秒),并可通过“尾帧拓展”功能进行连续创作,拼接生成长叙事内容。

适用场景

  • 专业影视与动画制作:用于快速生成电影分镜预览、视觉概念图、特效镜头,大幅缩短前期策划与后期制作周期,降低特效成本。
  • 广告营销与电商:快速生成商品展示视频、品牌宣传片、社交媒体广告素材,实现个性化、批量的视觉内容生产,提升营销效率与转化率。
  • 短视频与社交媒体内容创作:帮助个人创作者、博主、MCN机构高效生产创意短视频、剧情短片、知识科普视频,降低内容创作的技术与时间门槛。
  • 游戏与互动娱乐:生成游戏角色动画、场景动态预览、宣传视频,以及为虚拟偶像、数字人直播提供实时或预制的视频内容。
  • 教育与培训:将历史事件、科学原理、文学意境等抽象知识转化为生动的动态视频,制作沉浸式教学课件与培训材料。
  • 企业演示与可视化:为产品演示、建筑设计可视化、工业流程模拟等场景生成高质量的解说视频与动态演示素材。

数据统计

相关导航