Gemini | PROMPT

名称

Gemini（Gemini 人工智能多模态大模型）

所属公司

由谷歌（Google）旗下的 DeepMind 人工智能研究团队开发。

模型概述

Gemini 是基于 Transformer 架构 的多模态大语言模型（LLM），定位为通用人工智能（AGI）的基础设施。其核心能力覆盖 自然语言理解与生成、代码创作、数学推理、多模态处理（文本/图像/音频/视频） 及 复杂任务自动化，适用于企业级服务、科研、教育及工业场景。通过创新的算法架构与多模态融合技术，Gemini 在性能、成本与灵活性之间实现平衡，提供高性价比的 AI 解决方案。

发展历程

2023年12月6日：谷歌正式发布 Gemini 1.0，包含 Ultra、Pro 和 Nano 三个版本，首次展示多模态能力（文本、图像、音频、视频、代码）。
2023年12月13日：开发者可通过 Google AI Studio 和 Vertex AI 访问 Gemini Pro，支持英文文本提示。
2024年12月12日：发布 Gemini 2.0，引入原生图像和多语言音频输出，上下文窗口扩展至 200 万 tokens（Pro 版本）。
2025年2月：推出 Gemini 2.5 系列，包含 Pro 和 Flash 两个版本，进一步优化推理效率与多模态能力。
2025年3月7日：发布 Gemini Embedding 模型，在 MTEB 基准测试中取得领先。
2025年5月6日：推出 Gemini 2.5 Pro “I/O”，新增安全防护、多模态推理优化及实时语音处理功能。
2025年5月21日：发布 Gemini 2.5 Flash，轻量化版本效率提升 22%，成本降低 600%，支持跨语言语音合成。

技术特点

混合专家架构（MoE）：
- Gemini 2.5 Pro 采用稀疏 MoE 架构，激活参数达 128000 token 上下文窗口，支持 100,000 行代码推理。
- 训练成本较 Dense 模型降低 90%，推理吞吐量提升 30%。
动态注意力机制：
- 自适应识别关键信息，支持超长上下文（Pro 版本 200 万 tokens），提升长文档与复杂任务处理能力。
多模态融合：
- 集成视觉语言模型（Gemini-Vision）、音频语言模型（Universal Speech Model），实现跨模态任务协同。
- 无需 OCR 系统即可从图像中提取文本，支持视频帧级分析。
端到端语音处理：
- Speech2Speech 框架直接转换语音信号，支持低时延对话、情绪承接与方言理解（如粤语、四川话）。
安全与隐私保护：
- 新增间接提示注入攻击防护，安全分类器过滤有害内容，通过第三方专家压力测试。
高效训练与部署：
- 基于 TPUv5e/v4 架构，采用 JAX+Pathways 框架，分布式训练稳定性提升 40%。
- 轻量化版本（Flash）支持设备端部署，能耗降低 50%。