DeepSeek
国内
AI大模型自然语言处理

DeepSeek

DeepSeek 是基于 Transformer 架构 的混合专家(MoE)大语言模型(LLM),定位为通用人工智能(AGI)的基础设施。其核心能力覆盖 自然语言理解与生成、代码创作、数学推理、多模态...

标签:

名称

DeepSeek(全称:DeepSeek大语言模型)


所属公司

北京深度求索人工智能基础技术研究有限公司 开发。


模型概述

DeepSeek 是基于 Transformer 架构 的混合专家(MoE)大语言模型(LLM),定位为通用人工智能(AGI)的基础设施。其核心能力覆盖 自然语言理解与生成、代码创作、数学推理、多模态处理(文本/图像/语音)复杂任务自动化,适用于企业级服务、科研、教育及工业场景。通过创新的算法架构与训练优化,DeepSeek 在性能与成本之间实现平衡,提供高性价比的 AI 解决方案。

DeepSeek

发展历程

  1. 2024年1月:发布 DeepSeek LLM,首款开源大语言模型,奠定技术基础。
  2. 2024年4月:DeepSeek 大语言模型算法正式上线并完成备案。
  3. 2024年5月:推出 DeepSeek-V2,采用 MoE 架构,支持 236B 参数,性能超越主流开源模型。
  4. 2024年6月:发布 DeepSeek-Coder-V2,专注于代码生成与调试,支持多语言编程。
  5. 2024年12月
    • 发布 DeepSeek-VL2,实现高级多模态理解(图文/视频分析)。
    • 正式推出 DeepSeek-V3,参数量达 6710B,推理效率提升 30%,成本降低至 GPT-4 的 1/20。
  6. 2025年4月:推出 DeepSeek-Prover-V2-671B,专精数学证明与逻辑推理。
  7. 2025年5月:新一代旗舰模型 DeepSeek-R2 即将发布,参数规模达 1.2 万亿,成本较 GPT-4 降低 97%。

技术特点

  • 混合专家架构(MoE)
    • 通过动态路由机制激活专家子网络,兼顾性能与计算效率。
    • DeepSeek-V3 每 token 激活 370B 参数,推理吞吐量提升 11.6 倍。
  • 多头潜在注意力(MLA)
    • 低秩压缩 Key-Value 缓存,减少内存占用,保持与传统注意力机制相当的性能。
  • 多令牌预测(MTP)
    • 支持并行生成多个 token,结合推测解码技术,显著提升生成速度。
  • 高效训练与低成本
    • 采用 FP8 低精度训练、DualPipe 管道并行算法,DeepSeek-V3 训练成本仅为 GPT-4 的 1/20。
  • 多模态扩展
    • 集成视觉语言模型(DeepSeek-VL2)与检索增强生成(RAG),支持图文理解与跨模态生成。
  • 超长上下文窗口
    • 支持 128K token 上下文(官网/API 支持 32K),可解析 50 页 PDF 或完整代码库。

主要功能

  • 自然语言处理
    • 多轮对话、情感分析、多语言翻译(支持 72 种语言)。
    • 内容生成(文章、邮件、脚本、代码等)。
  • 代码生成与调试
    • 支持 Python、Java、C++ 等 30+ 编程语言,代码生成准确率高达 95%。
  • 数学与逻辑推理
    • 解决复杂数学问题(如 IMO 级别证明),在 GSM8K 测试中超越 GPT-4。
  • 多模态处理
    • 图像描述生成、视频内容分析、语音识别与合成。
  • 企业级服务
    • 自动化客服、智能文档分析、风险预测与报告生成。
  • 教育辅助
    • 个性化学习路径规划、自动批改作业、生成教学材料。

适用场景

  1. 企业服务
    • 智能客服系统(如比亚迪车辆故障诊断)、自动化文档处理(合同审核、报告生成)。
  2. 金融科技
    • 风险评估模型、市场动态监控、自动化投资策略生成。
  3. 医疗健康
    • 医学影像分析、病历摘要生成、辅助诊断建议。
  4. 教育领域
    • 自适应学习平台(如 Khanmigo 教育助手)、AI 题库生成与知识点定位。
  5. 研发与工程
    • 代码优化工具(如 DeepSeek-Coder)、科学论文公式推导与验证。
  6. 制造业
    • 工业流程优化、供应链预测、设备故障预警。

数据统计

相关导航