DeepSeek

名称

DeepSeek（全称：DeepSeek大语言模型）

所属公司

由 北京深度求索人工智能基础技术研究有限公司 开发。

模型概述

DeepSeek 是基于 Transformer 架构 的混合专家（MoE）大语言模型（LLM），定位为通用人工智能（AGI）的基础设施。其核心能力覆盖 自然语言理解与生成、代码创作、数学推理、多模态处理（文本/图像/语音） 及 复杂任务自动化，适用于企业级服务、科研、教育及工业场景。通过创新的算法架构与训练优化，DeepSeek 在性能与成本之间实现平衡，提供高性价比的 AI 解决方案。

发展历程

2024年1月：发布 DeepSeek LLM，首款开源大语言模型，奠定技术基础。
2024年4月：DeepSeek 大语言模型算法正式上线并完成备案。
2024年5月：推出 DeepSeek-V2，采用 MoE 架构，支持 236B 参数，性能超越主流开源模型。
2024年6月：发布 DeepSeek-Coder-V2，专注于代码生成与调试，支持多语言编程。
2024年12月：
- 发布 DeepSeek-VL2，实现高级多模态理解（图文/视频分析）。
- 正式推出 DeepSeek-V3，参数量达 6710B，推理效率提升 30%，成本降低至 GPT-4 的 1/20。
2025年4月：推出 DeepSeek-Prover-V2-671B，专精数学证明与逻辑推理。
2025年5月：新一代旗舰模型 DeepSeek-R2 即将发布，参数规模达 1.2 万亿，成本较 GPT-4 降低 97%。

技术特点

混合专家架构（MoE）：
- 通过动态路由机制激活专家子网络，兼顾性能与计算效率。
- DeepSeek-V3 每 token 激活 370B 参数，推理吞吐量提升 11.6 倍。
多头潜在注意力（MLA）：
- 低秩压缩 Key-Value 缓存，减少内存占用，保持与传统注意力机制相当的性能。
多令牌预测（MTP）：
- 支持并行生成多个 token，结合推测解码技术，显著提升生成速度。
高效训练与低成本：
- 采用 FP8 低精度训练、DualPipe 管道并行算法，DeepSeek-V3 训练成本仅为 GPT-4 的 1/20。
多模态扩展：
- 集成视觉语言模型（DeepSeek-VL2）与检索增强生成（RAG），支持图文理解与跨模态生成。
超长上下文窗口：
- 支持 128K token 上下文（官网/API 支持 32K），可解析 50 页 PDF 或完整代码库。

主要功能

自然语言处理：
- 多轮对话、情感分析、多语言翻译（支持 72 种语言）。
- 内容生成（文章、邮件、脚本、代码等）。
代码生成与调试：
- 支持 Python、Java、C++ 等 30+ 编程语言，代码生成准确率高达 95%。
数学与逻辑推理：
- 解决复杂数学问题（如 IMO 级别证明），在 GSM8K 测试中超越 GPT-4。
多模态处理：
- 图像描述生成、视频内容分析、语音识别与合成。
企业级服务：
- 自动化客服、智能文档分析、风险预测与报告生成。
教育辅助：
- 个性化学习路径规划、自动批改作业、生成教学材料。

适用场景

企业服务：
- 智能客服系统（如比亚迪车辆故障诊断）、自动化文档处理（合同审核、报告生成）。
金融科技：
- 风险评估模型、市场动态监控、自动化投资策略生成。
医疗健康：
- 医学影像分析、病历摘要生成、辅助诊断建议。
教育领域：
- 自适应学习平台（如 Khanmigo 教育助手）、AI 题库生成与知识点定位。
研发与工程：
- 代码优化工具（如 DeepSeek-Coder）、科学论文公式推导与验证。
制造业：
- 工业流程优化、供应链预测、设备故障预警。

数据统计

相关导航

曹植大模型

达观 “曹植” 大模型是专注于长文本、多语言、垂直化发展的国产大语言模型。具有自动化写作、翻译、专业性报告写作能力，支持多语言应用和垂直行业定制。可提供高质量文案撰写服务，广泛适用于各行业，是解决企业实际问题的智能工具。

海螺AI—MiniMax 旗下生产力产品，你的AI伙伴，10倍速提升工作学习效率

海螺AI是 MiniMax基于自研的多模态大语言模型为用户打造的AI伙伴，可以帮你智能搜索问答、精准识图解析、沉浸语音通话、专业/创意写作、文档速读总结、还有独家悬浮球功能帮你把琐事化繁为简。10倍速获取信息，10倍速解决问题。从学生到打工人，或者是自由工作者、创作者，不管你是任何角色都可以随时召唤它，上手即用，张嘴就问，无论是AI写作、AI搜题、AI办公、AI翻译、AI编程、AI创作、AI文档总结，还是陪你AI聊天、AI对话、口语陪练、模拟面试。它是你全能的AI助手。

DeepSeek | 深度求索

深度求索（deepseek），成立于年，专注于研究世界领先的通用人工智能底层模型与技术，挑战人工智能前沿性难题。基于自研训练框架、自建智算集群和万卡算力等资源，深度求索团队仅用半年时间便已发布并开源多个百亿级参数大模型，如deepseek-llm通用大语言模型、deepseek-coder代码大模型，并在年月率先开源国内首个moe大模型（deepseek-moe），各大模型在公开评测榜单及真实样本外的泛化效果均有超越同级别模型的出色表现。和deepseekai对话，轻松接入api。

讯飞星火大模型-AI大语言模型-星火大模型-科大讯飞

讯飞星火大模型，是由科大讯飞推出的新一代认知智能大模型，拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务，提供语言理解、知识问答、逻辑推理、数学题解答、代码理解与编写等多种能力。

ZeroTrusted.ai

ZeroTrusted.ai是一家先驱性的公司,专门从事生成式人工智能安全领域。他们的LLM防火墙产品旨在保护您免受由于语言模型训练数据集可能包含您的敏感信息而带来的数据曝光和被不道德的语言模型提供商或恶意行为者利用的风险。该产品提供匿名功能以保护提示语隐私,通过ztPolicyServer和ztDataPrivacy确保数据安全和隐私,优化提示语和验证结果以提高准确性并防止模型编造,并支持与LangChain、Zapier等多种工具集成。该产品分为免费版、标准版、商业版和企业版等多个定价方案,功能和服务级别有所不同。ZeroTrusted.ai致力于简化安全合规,通过云无关的零信任解决方案、动态自适应加密等技术最大程度地保护应用程序和数据。

百度智能云千帆大模型平台

企业级一站式大模型与AI原生应用开发及服务平台，提供最全面易用的生成式人工智能模型开发、应用开发全流程工具链

名称