百度智能云语音合成
中国
AI音频工具AI语音合成

百度智能云语音合成

基于大模型全新升级的语音合成,不仅让音色拥有更高的自然度,还能够依据上下文,智能预测文本的情绪、语调等信息,进而自动匹配与之相应的情感表达

标签:
Seko
LibTVLibTVLibTV

简介

百度智能云语音合成(Text-to-Speech, TTS)是百度基于深度神经网络技术推出的将文本转化为拟人化语音的AI服务,以高自然度、低延迟和丰富的音色库为核心优势,支持多语言、方言及情感语音合成

百度智能云语音合成

核心功能

  • 丰富的音色与多语言支持:提供70余种风格多样的发音人,覆盖基础音库(度逍遥、度小宇、度小美、度丫丫等)、精品音库、臻品音库及大模型音库。支持中文、英文、中英文混读合成,以及上海话、河南话、四川话、湖南话、贵州话等多种方言

  • 多情感与大模型语音合成:大模型音色支持多情感表达,情绪更丰富、韵律更自然。超拟人音色可精准刻画语音微观变化,增强情感表达

  • 多种合成方式

    • 短文本在线合成:基于HTTP请求的REST API接口,每次请求可合成120 GBK字节(约60个汉字或字母数字)

    • 长文本在线合成:支持10万字以内文本一次性合成,异步返回音频,适用于阅读听书、新闻播报等场景

    • 流式文本在线合成:基于WebSocket协议,输入文本的同时同步返回合成音频,达到“边合成边播放”效果

  • 声音复刻与定制:支持大模型声音复刻,无需专业设备与规定文本,任意有声音频即可实现精准还原音色特点、说话风格与韵律起伏。提供创建音色与在线合成两类服务

  • SSML标记语言支持:支持SSML标记语言,可精细化控制语音的停顿、重音、语调等合成效果

  • 灵活集成方式:提供REST API接口、在线SDK(Android/iOS/HarmonyOS)、离线SDK等多种集成方式。离线SDK支持无网弱网环境下的稳定合成

  • 多音字标注:中文多音字可通过标注拼音、音调自行定义发音

产品优势

  • 高保真音质:采用深度神经网络模型,支持48kHz采样率,合成语音接近真人发音。响应时间小于500ms,满足实时交互需求

  • 多场景适配:提供新闻播报、客服对话、儿童故事等10余种场景音色,覆盖多元需求

  • 超低时延:基于创新的Cross-Attention技术,将用户等待时长从行业常见的3-5秒大幅缩短至1秒左右

  • 灵活定制:支持语速(0.6倍至1.5倍)、音调、音量等参数动态调整。可通过SSML实现精细化控制

  • 离在线融合:提供离在线融合SDK,根据网络情况自动切换。离线方案全流程本地化,降低对网络带宽的依赖

应用场景

  • 阅读听书:赋予阅读听书APP朗读听书能力,多种特色音库让每个故事找到合适的音色

  • 智能客服与语音交互:满足智能客服、IVR导航、智能外呼、人机对练等场景的高拟真、低延迟语音交互需求

  • 有声读物与新闻播报:将超长文本快速转换成稳定流畅、饱满真实的音频

  • 车载导航与智能硬件:支持车载导航的个性化语音播报,适用于智能设备语音提醒与交互

  • 数字人与情感陪伴:广泛应用于配音、数字人、情感陪伴、语音助手等场景

  • 订单播报与资讯播报:支持订单播报、资讯新闻等业务场景

使用教程

  1. 注册与开通服务:访问百度智能云平台,完成实名认证。进入控制台“语音技术”分类下开通语音合成服务

  2. 创建应用并获取密钥:在控制台创建TTS应用,获取API Key和Secret Key

  3. 领取免费额度:完成实名认证的账号可自动领取免费测试资源。企业认证可领取10万字免费额度

  4. 选择接入方式

    • 在线API接口:使用HTTP请求的REST API接口进行短文本或长文本合成

    • 在线SDK:适用于网络环境稳定场景下的手机、智能硬件设备快速集成

    • 离线SDK:适用于无网弱网环境下的稳定合成

  5. 调用API接口:以Python为例,通过baidu-aip SDK调用synthesis方法,传入文本、语言类型、发音人及参数配置,即可获取合成音频

  6. 声音复刻(可选) :调用大模型声音复刻接口,上传任意音频即可创建定制音色

价格说明(以官方为准)

百度智能云语音合成提供预付费和后付费两种计费模式

  • 免费额度:企业认证可领取10万字免费额度。大模型声音复刻在线合成个人认证5万字符,企业认证50万字符

  • 短文本在线合成(按次数包预付费) :

    • 基础音库:1000千次包1200元(单价1.2元/千次)

    • 精品音库:1000千次包3000元(单价3.0元/千次)

    • 大模型&臻品音库:1000千次包4000元(单价4.0元/千次)

  • 短文本在线合成(按调用量后付费) :基础音库2.0元/千次起,精品音库4.0元/千次起,大模型&臻品音库4.5元/千次起

  • 长文本在线合成(按字符包预付费) :100万字包170元

  • 声音复刻(创建音色) :按次数包预付费,50次包400元(单次8元);按调用量后付费8.8元/次

  • 声音复刻(在线合成) :按字符包预付费,100万字包650元(万字符6.5元);按调用量后付费7元/万字符

FAQ

Q1:百度智能云语音合成由哪家公司开发和运营?

A:由百度(百度智能云)开发运营

Q2:百度语音合成支持哪些语言?

A:支持中文、英文、中英文混读合成,以及上海话、河南话、四川话、湖南话、贵州话等方言

Q3:百度语音合成有哪些音色可以选择?

A:提供70余种发音人,覆盖基础音库(度逍遥、度小宇、度小美、度丫丫等)、精品音库、臻品音库及大模型音库

Q4:短文本在线合成一次可以合成多少字?

A:POST方式提交文本不超过120 GBK字节,即60个汉字或字母数字

Q5:长文本在线合成支持多少字?

A:支持10万字以内文本一次性合成,异步返回音频

Q6:如何定制自己的音色?

A:通过大模型声音复刻功能,上传任意音频即可实现声音复刻,无需专业设备与规定文本

Q7:百度语音合成如何收费?

A:提供预付费(次数包/字符包)和后付费两种模式。新用户可领取免费测试资源

Q8:是否支持离线使用?

A:支持。提供离线语音合成SDK(Android/iOS),无网弱网环境也能提供稳定流畅的合成体验

Q9:百度语音合成支持SSML吗?

A:支持SSML标记语言,可精细化控制停顿、重音、语调等合成效果

Q10:流式文本在线合成有什么特点?

A:基于WebSocket协议,用户输入文本的同时即可同步返回合成音频,达到“边合成边播放”效果

数据统计

相关导航