简介
百度智能云语音合成(Text-to-Speech, TTS)是百度基于深度神经网络技术推出的将文本转化为拟人化语音的AI服务,以高自然度、低延迟和丰富的音色库为核心优势,支持多语言、方言及情感语音合成。

核心功能
丰富的音色与多语言支持:提供70余种风格多样的发音人,覆盖基础音库(度逍遥、度小宇、度小美、度丫丫等)、精品音库、臻品音库及大模型音库。支持中文、英文、中英文混读合成,以及上海话、河南话、四川话、湖南话、贵州话等多种方言。
多情感与大模型语音合成:大模型音色支持多情感表达,情绪更丰富、韵律更自然。超拟人音色可精准刻画语音微观变化,增强情感表达。
多种合成方式:
短文本在线合成:基于HTTP请求的REST API接口,每次请求可合成120 GBK字节(约60个汉字或字母数字)。
长文本在线合成:支持10万字以内文本一次性合成,异步返回音频,适用于阅读听书、新闻播报等场景。
流式文本在线合成:基于WebSocket协议,输入文本的同时同步返回合成音频,达到“边合成边播放”效果。
声音复刻与定制:支持大模型声音复刻,无需专业设备与规定文本,任意有声音频即可实现精准还原音色特点、说话风格与韵律起伏。提供创建音色与在线合成两类服务。
SSML标记语言支持:支持SSML标记语言,可精细化控制语音的停顿、重音、语调等合成效果。
灵活集成方式:提供REST API接口、在线SDK(Android/iOS/HarmonyOS)、离线SDK等多种集成方式。离线SDK支持无网弱网环境下的稳定合成。
多音字标注:中文多音字可通过标注拼音、音调自行定义发音。
产品优势
高保真音质:采用深度神经网络模型,支持48kHz采样率,合成语音接近真人发音。响应时间小于500ms,满足实时交互需求。
多场景适配:提供新闻播报、客服对话、儿童故事等10余种场景音色,覆盖多元需求。
超低时延:基于创新的Cross-Attention技术,将用户等待时长从行业常见的3-5秒大幅缩短至1秒左右。
灵活定制:支持语速(0.6倍至1.5倍)、音调、音量等参数动态调整。可通过SSML实现精细化控制。
离在线融合:提供离在线融合SDK,根据网络情况自动切换。离线方案全流程本地化,降低对网络带宽的依赖。
应用场景
阅读听书:赋予阅读听书APP朗读听书能力,多种特色音库让每个故事找到合适的音色。
智能客服与语音交互:满足智能客服、IVR导航、智能外呼、人机对练等场景的高拟真、低延迟语音交互需求。
有声读物与新闻播报:将超长文本快速转换成稳定流畅、饱满真实的音频。
车载导航与智能硬件:支持车载导航的个性化语音播报,适用于智能设备语音提醒与交互。
数字人与情感陪伴:广泛应用于配音、数字人、情感陪伴、语音助手等场景。
订单播报与资讯播报:支持订单播报、资讯新闻等业务场景。
使用教程
注册与开通服务:访问百度智能云平台,完成实名认证。进入控制台“语音技术”分类下开通语音合成服务。
创建应用并获取密钥:在控制台创建TTS应用,获取API Key和Secret Key。
领取免费额度:完成实名认证的账号可自动领取免费测试资源。企业认证可领取10万字免费额度。
选择接入方式:
在线API接口:使用HTTP请求的REST API接口进行短文本或长文本合成。
在线SDK:适用于网络环境稳定场景下的手机、智能硬件设备快速集成。
离线SDK:适用于无网弱网环境下的稳定合成。
调用API接口:以Python为例,通过
baidu-aipSDK调用synthesis方法,传入文本、语言类型、发音人及参数配置,即可获取合成音频。声音复刻(可选) :调用大模型声音复刻接口,上传任意音频即可创建定制音色。
价格说明(以官方为准)
百度智能云语音合成提供预付费和后付费两种计费模式。
免费额度:企业认证可领取10万字免费额度。大模型声音复刻在线合成个人认证5万字符,企业认证50万字符。
短文本在线合成(按次数包预付费) :
基础音库:1000千次包1200元(单价1.2元/千次)
精品音库:1000千次包3000元(单价3.0元/千次)
大模型&臻品音库:1000千次包4000元(单价4.0元/千次)
短文本在线合成(按调用量后付费) :基础音库2.0元/千次起,精品音库4.0元/千次起,大模型&臻品音库4.5元/千次起
长文本在线合成(按字符包预付费) :100万字包170元
声音复刻(创建音色) :按次数包预付费,50次包400元(单次8元);按调用量后付费8.8元/次
声音复刻(在线合成) :按字符包预付费,100万字包650元(万字符6.5元);按调用量后付费7元/万字符
FAQ
Q1:百度智能云语音合成由哪家公司开发和运营?
A:由百度(百度智能云)开发运营。
Q2:百度语音合成支持哪些语言?
A:支持中文、英文、中英文混读合成,以及上海话、河南话、四川话、湖南话、贵州话等方言。
Q3:百度语音合成有哪些音色可以选择?
A:提供70余种发音人,覆盖基础音库(度逍遥、度小宇、度小美、度丫丫等)、精品音库、臻品音库及大模型音库。
Q4:短文本在线合成一次可以合成多少字?
A:POST方式提交文本不超过120 GBK字节,即60个汉字或字母数字。
Q5:长文本在线合成支持多少字?
A:支持10万字以内文本一次性合成,异步返回音频。
Q6:如何定制自己的音色?
A:通过大模型声音复刻功能,上传任意音频即可实现声音复刻,无需专业设备与规定文本。
Q7:百度语音合成如何收费?
A:提供预付费(次数包/字符包)和后付费两种模式。新用户可领取免费测试资源。
Q8:是否支持离线使用?
A:支持。提供离线语音合成SDK(Android/iOS),无网弱网环境也能提供稳定流畅的合成体验。
Q9:百度语音合成支持SSML吗?
A:支持SSML标记语言,可精细化控制停顿、重音、语调等合成效果。
Q10:流式文本在线合成有什么特点?
A:基于WebSocket协议,用户输入文本的同时即可同步返回合成音频,达到“边合成边播放”效果。




