通义
国内
AI大模型自然语言处理

通义

通义是基于 Transformer 架构 的混合专家(MoE)大语言模型(LLM),定位为通用人工智能(AGI)的基础设施。其核心能力覆盖 自然语言理解与生成、代码创作、数学推理、多模态处理...

标签:

名称

通义(全称:通义大语言模型)


所属公司

阿里云(阿里巴巴集团)开发。


模型概述

通义是基于 Transformer 架构 的混合专家(MoE)大语言模型(LLM),定位为通用人工智能(AGI)的基础设施。其核心能力覆盖 自然语言理解与生成、代码创作、数学推理、多模态处理(文本/图像/语音)复杂任务自动化,适用于企业级服务、科研、教育及工业场景。通过创新的算法架构与训练优化,通义在性能与成本之间实现平衡,提供高性价比的 AI 解决方案。

通义

发展历程

  1. 2019年:阿里云达摩院启动通义千问(通义前身)的研发,聚焦大规模语言模型技术。
  2. 2023年4月7日:通义千问开始邀请测试,标志着从内部研发走向公众视野。
  3. 2023年4月11日:通义千问在阿里云峰会上正式发布,全面接入阿里生态产品(如钉钉、天猫精灵)。
  4. 2023年9月13日:通义千问正式向公众开放,更名为“通义”。
  5. 2024年5月:通义完成备案,明确“通情达义”的定位,强化全副 AI 能力。
  6. 2025年4月29日:推出 Qwen3,新一代大语言模型,支持混合推理模式、超大规模训练数据(36万亿token),参数量达2350亿(MoE架构)。
  7. 2025年5月:通义 Qwen-Long API 输入价格直降97%,推动 AI 普惠化。

技术特点

  • 混合专家架构(MoE)
    • 通过动态激活专家子网络(如 Qwen3-235B-A22B 激活220B参数),兼顾性能与计算效率。
    • 参数效率提升10倍,小规模 MoE(如 Qwen3-30B-A3B)性能超越前代 72B 模型。
  • 动态注意力机制
    • 自动识别关键信息并调整权重分配,提升长文本处理能力(默认支持32K上下文,可扩展至百万级 token)。
  • 文化感知模块
    • 特别设计的文化编码器,精准理解中文语境中的成语、典故及情感表达。
  • 多模态扩展
    • 集成视觉语言模型(Qwen-VL)、音频语言模型(Qwen-Audio),支持图文/视频/语音跨模态任务。
  • 开源与商业兼容
    • 遵循 Apache 2.0 协议,开放多版本模型(如 Qwen2.5-Math/Coder),加速开发者生态建设。

主要功能

  • 自然语言处理
    • 多轮对话、情感分析、多语言翻译(支持119种语言,中文表现领先)。
    • 内容生成(文章、邮件、脚本、代码等)。
  • 代码生成与调试
    • 支持 Python、JavaScript 等30+编程语言,代码生成准确率高达95%。
  • 数学与逻辑推理
    • 解决复杂数学问题(如 IMO 级别证明),在 GSM8K 测试中超越 GPT-4。
  • 多模态处理
    • 图像描述生成、视频内容分析、语音识别与合成。
  • 企业级服务
    • 自动化客服、智能文档分析、风险预测与报告生成。
  • 教育辅助
    • 个性化学习路径规划、自动批改作业、生成教学材料。

适用场景

  1. 企业服务
    • 智能客服系统(如比亚迪车辆故障诊断)、自动化文档处理(合同审核、报告生成)。
  2. 金融科技
    • 风险评估模型、市场动态监控、自动化投资策略生成。
  3. 医疗健康
    • 医学影像分析、病历摘要生成、辅助诊断建议(试点医院准确率达98.7%)。
  4. 司法系统
    • 法律文书自动生成、案例检索(全国15个法院部署,节省法官3小时/天)。
  5. 文化传播
    • 与故宫博物院合作开发“文物解说官”,提供个性化文物讲解服务。
  6. 制造业
    • 工业流程优化、供应链预测、设备故障预警(卓驭科技接入端到端世界模型)。

数据统计

相关导航