Azure Speech
Azure Speech 是微软 Azure 在 Foundry Tools 中提供的统一语音 AI 服务,提供语音转文本、文本转语音、语音翻译及说话人识别等能力,支持开发者构建具备高精度、多语言和可定制语...
标签:AI语音合成Azure AI服务 Azure Speech Azure语音服务 Microsoft语音AI 文本转语音 神经语音合成 自定义语音 语音翻译 语音转文本简介
Azure Speech 是微软 Azure 在 Foundry Tools 中提供的统一语音 AI 服务,提供语音转文本、文本转语音、语音翻译及说话人识别等能力,支持开发者构建具备高精度、多语言和可定制语音体验的智能语音应用。

核心功能
- 语音转文本(Speech-to-Text, STT) :将音频流或文件高精度转换为文本,支持实时转录、快速转录和批量转录三种模式。适用于听写、呼叫中心辅助、会议实时字幕等场景。
- 文本转语音(Text-to-Speech, TTS) :将输入文本转换为接近真人发音的合成语音,基于深度神经网络驱动,支持自然停顿、语调强调等拟人化特征。可使用预置神经语音或为品牌定制专属神经语音。
- 语音翻译:支持实时语音到语音、语音到文本的多语言翻译,可自动生成多语种翻译字幕。
- 说话人识别:通过语音生物特征识别对话中的说话人身份。
- 自定义语音:可创建独特品牌语音模型,添加特定词汇至基础词汇库,或构建自有模型。
- Avatar 头像合成:为实时或批量应用生成逼真、高质量的合成语音头像视频。
- 语音 CLI 与 SDK:提供 Speech CLI(SPX)实现无需编码的语音服务调用,以及 Speech SDK 和 REST API 支持深度集成。
产品优势
- 高精度与自然度:采用最新神经网络架构,语音转写准确率高,合成语音接近真人发音,显著降低机械感。
- 多语言与全球化:支持 100+ 语言的音频字幕和语音翻译。语音翻译支持不断扩展的语言列表,并可针对行业进行定制化翻译。
- 灵活的部署方式:支持云端部署与边缘容器部署,可在数据所在位置运行 AI 模型。
- 嵌入式语音支持:支持设备端语音转文本和文本转语音,适用于云连接间歇或不可用的场景。
- 安全与合规:微软拥有 34,000 名全职工程师专注安全计划,15,000 家安全合作伙伴,获得 100 多项合规认证。
- 灵活的按需付费:无前期成本,仅按实际使用量付费。
应用场景
- 智能语音 Agent:结合基础模型与定制化音频输入/输出模型,为 Agent 赋予语音能力。
- 呼叫中心与会议转录:转录呼叫中心或会议对话,支持 100+ 语言的音频字幕。
- 文本转语音与有声内容:构建自然说话的机器人,以定制化逼真语音和说话风格实现品牌差异化。
- 多语言沟通:对音频或视频数据进行多语言翻译,支持不断扩展的语言列表及行业定制化翻译。
- 自定义语音与 Avatar:构建自然听感的定制神经语音,使用预置或定制 Avatar 配合自然语音将品牌形象生动化。
- 后通话分析:使用 Foundation Models 分析音频或视频通话录音,获取深度洞察。
- Microsoft 内部应用:Microsoft 自身在多个场景使用 Azure Speech,包括 Microsoft Teams 的字幕、Microsoft Office 365 的语音输入、Microsoft Edge 浏览器的朗读功能。
使用教程
- 创建 Azure 账号并开通服务:注册 Azure 账号(支持企业账号与个人开发者账号),登录 Azure 门户后搜索“Speech Services”,创建新语音资源。
- 获取密钥与区域:在创建的语音资源中获取 API Key 和区域(Region)信息。
- 选择接入方式:
- 无需编码:使用 Speech CLI(SPX)通过命令行快速体验语音服务。
- 深度集成:使用 Speech SDK(支持多种编程语言)或 REST API 进行应用开发。
- 文本转语音快速体验:在命令行中运行 Speech CLI 命令,指定文本和语音风格,即可合成语音并播放或保存。
- 语音转文本快速体验:通过麦克风实时语音识别,或对音频文件进行批量转录。
- 自定义语音模型(可选) :上传录音数据,训练品牌专属的定制神经语音模型。
价格说明
Azure Speech 采用即用即付(Pay-as-you-go)模式,无前期成本,仅按实际使用量计费。
免费额度(F0 免费层) :
| 功能 | 免费额度(每月) |
|---|---|
| 语音转文本(标准/自定义) | 5 小时音频 |
| 文本转语音(神经版) | 50 万字符 |
| 语音翻译(标准) | 5 小时音频 |
| 说话人验证/识别 | 10,000 次事务 |
标准层按量付费(参考价格) :
| 功能 | 计费单位 | 参考价格(人民币) |
|---|---|---|
| 语音转文本 – 实时(标准) | 每小时音频 | ¥3.00 |
| 语音转文本 – 快速转录 | 每小时音频 | ¥2.29 |
| 语音转文本 – 批量(v3.2 API) | 每小时音频 | ¥1.83 |
| 语音转文本 – 自定义 | 每小时音频 | ¥4.452 |
| 文本转语音(神经版) | 每 100 万字符 | ¥95.40 |
| 语音翻译(标准) | 每小时音频 | ¥10.176 |
| 终结点托管(自定义模型) | 每模型/小时 | ¥0.547 |
说明:以上价格仅供参考,实际价格可能因与 Microsoft 签订的协议类型、购买日期和货币汇率而有所差异。同时,Azure 提供定价计算器供用户根据自身方案估算费用。
FAQ
Q1:Azure Speech 由哪家公司开发和运营?
A:由 Microsoft(微软)开发运营,是 Azure Foundry Tools 中的核心 AI 服务之一。
Q2:Azure Speech 支持哪些核心功能?
A:支持语音转文本(STT)、文本转语音(TTS)、语音翻译、说话人识别、自定义语音及 Avatar 头像合成等。
Q3:Azure Speech 如何计费?
A:采用即用即付模式,无前期成本。语音转文本和语音翻译按音频小时计费,文本转语音按字符数计费。
Q4:是否有免费额度?
A:有。F0 免费层每月提供 5 小时语音转文本、50 万字符文本转语音、5 小时语音翻译的免费额度。
Q5:Azure Speech 支持哪些语言?
A:支持 100+ 语言的音频字幕和语音翻译。具体支持的语言和声音列表请参阅官方文档。
Q6:能否定制自己的语音模型?
A:可以。Azure Speech 支持构建定制神经语音,可针对特定品牌或应用创建独特的语音模型。
Q7:是否支持离线或边缘部署?
A:支持。Azure Speech 可在云端或边缘容器中运行。同时提供嵌入式语音,支持设备端语音能力,适用于云连接间歇或不可用的场景。
Q8:如何开始使用 Azure Speech?
A:注册 Azure 账号,在 Azure 门户创建语音资源,获取密钥后即可通过 Speech CLI、SDK 或 REST API 开始调用。





皖公网安备34010202602243号