语音合成_在线语音合成_离线语音合成_百度云

简介

百度智能云语音合成（Text-to-Speech, TTS）是百度基于深度神经网络技术推出的将文本转化为拟人化语音的AI服务，以高自然度、低延迟和丰富的音色库为核心优势，支持多语言、方言及情感语音合成。

核心功能

丰富的音色与多语言支持：提供70余种风格多样的发音人，覆盖基础音库（度逍遥、度小宇、度小美、度丫丫等）、精品音库、臻品音库及大模型音库。支持中文、英文、中英文混读合成，以及上海话、河南话、四川话、湖南话、贵州话等多种方言。
多情感与大模型语音合成：大模型音色支持多情感表达，情绪更丰富、韵律更自然。超拟人音色可精准刻画语音微观变化，增强情感表达。
多种合成方式：
- 短文本在线合成：基于HTTP请求的REST API接口，每次请求可合成120 GBK字节（约60个汉字或字母数字）。
- 长文本在线合成：支持10万字以内文本一次性合成，异步返回音频，适用于阅读听书、新闻播报等场景。
- 流式文本在线合成：基于WebSocket协议，输入文本的同时同步返回合成音频，达到“边合成边播放”效果。
声音复刻与定制：支持大模型声音复刻，无需专业设备与规定文本，任意有声音频即可实现精准还原音色特点、说话风格与韵律起伏。提供创建音色与在线合成两类服务。
SSML标记语言支持：支持SSML标记语言，可精细化控制语音的停顿、重音、语调等合成效果。
灵活集成方式：提供REST API接口、在线SDK（Android/iOS/HarmonyOS）、离线SDK等多种集成方式。离线SDK支持无网弱网环境下的稳定合成。
多音字标注：中文多音字可通过标注拼音、音调自行定义发音。

产品优势

高保真音质：采用深度神经网络模型，支持48kHz采样率，合成语音接近真人发音。响应时间小于500ms，满足实时交互需求。
多场景适配：提供新闻播报、客服对话、儿童故事等10余种场景音色，覆盖多元需求。
超低时延：基于创新的Cross-Attention技术，将用户等待时长从行业常见的3-5秒大幅缩短至1秒左右。
灵活定制：支持语速（0.6倍至1.5倍）、音调、音量等参数动态调整。可通过SSML实现精细化控制。
离在线融合：提供离在线融合SDK，根据网络情况自动切换。离线方案全流程本地化，降低对网络带宽的依赖。

应用场景

阅读听书：赋予阅读听书APP朗读听书能力，多种特色音库让每个故事找到合适的音色。
智能客服与语音交互：满足智能客服、IVR导航、智能外呼、人机对练等场景的高拟真、低延迟语音交互需求。
有声读物与新闻播报：将超长文本快速转换成稳定流畅、饱满真实的音频。
车载导航与智能硬件：支持车载导航的个性化语音播报，适用于智能设备语音提醒与交互。
数字人与情感陪伴：广泛应用于配音、数字人、情感陪伴、语音助手等场景。
订单播报与资讯播报：支持订单播报、资讯新闻等业务场景。

使用教程

注册与开通服务：访问百度智能云平台，完成实名认证。进入控制台“语音技术”分类下开通语音合成服务。
创建应用并获取密钥：在控制台创建TTS应用，获取API Key和Secret Key。
领取免费额度：完成实名认证的账号可自动领取免费测试资源。企业认证可领取10万字免费额度。
选择接入方式：
- 在线API接口：使用HTTP请求的REST API接口进行短文本或长文本合成。
- 在线SDK：适用于网络环境稳定场景下的手机、智能硬件设备快速集成。
- 离线SDK：适用于无网弱网环境下的稳定合成。
调用API接口：以Python为例，通过baidu-aip SDK调用synthesis方法，传入文本、语言类型、发音人及参数配置，即可获取合成音频。
声音复刻（可选） ：调用大模型声音复刻接口，上传任意音频即可创建定制音色。

价格说明（以官方为准）

百度智能云语音合成提供预付费和后付费两种计费模式。

免费额度：企业认证可领取10万字免费额度。大模型声音复刻在线合成个人认证5万字符，企业认证50万字符。
短文本在线合成（按次数包预付费） ：
- 基础音库：1000千次包1200元（单价1.2元/千次）
- 精品音库：1000千次包3000元（单价3.0元/千次）
- 大模型&臻品音库：1000千次包4000元（单价4.0元/千次）
短文本在线合成（按调用量后付费） ：基础音库2.0元/千次起，精品音库4.0元/千次起，大模型&臻品音库4.5元/千次起
长文本在线合成（按字符包预付费） ：100万字包170元
声音复刻（创建音色） ：按次数包预付费，50次包400元（单次8元）；按调用量后付费8.8元/次
声音复刻（在线合成） ：按字符包预付费，100万字包650元（万字符6.5元）；按调用量后付费7元/万字符