简介
讯飞语音合成(Online Text-to-Speech)是科大讯飞基于深度神经网络技术推出的将文本转化为拟人化语音的AI服务,以高自然度、多音色、低延迟为核心优势,支持多语种、多方言及情感语音合成。

核心功能
- 丰富的音色与多语言支持:提供100余种风格多样的发音人,覆盖中英粤多语种、川豫等多方言,以及韩语、日语、维吾尔语、藏语、法语、俄语、西班牙语等小语种。基础发音人(小燕、许久、小萍、小婧、许小宝)免费赠送。
- 多种合成方式:
- 流式语音合成(WebSocket) :支持流式传输,文本与音频双向流式交互,实现“边合成边播放”。
- 超拟人语音合成:支持双向流式通信,流式输入文本并流式获取音频,适用于大语言模型逐字输入场景。
- 超拟人合成与声音复刻:一句话声音复刻可完整捕捉用户喉腔共鸣、口音特点、气息流转等发音特征,精准还原停顿习惯、情感起伏和呼吸节奏。
- 个性化参数调节:支持语速、音调、音量等参数动态调整。支持多音字标注、静音停顿、数字读法等精细化控制。
- 灵活集成方式:提供WebSocket API、Java/ iOS SDK等多种集成方式,支持跨语言、跨平台快速接入。
产品优势
- 高自然度与低延迟:基于深度学习的端到端模型,合成语音自然流畅、拟真度高。服务端分块合成与WebSocket流式传输,实现低延迟实时播报。
- 多场景适配:提供新闻播报、有声阅读、智能客服等多场景音色,覆盖多元需求。
- 灵活定制:支持SSML标记语言精细化控制停顿、重音、语调等合成效果。
- 离在线融合:在线合成效果更好、发音人更多;离线合成响应速度快、适用于无网环境。
应用场景
- 智能客服与语音交互:满足智能客服、IVR导航、智能外呼等场景的高拟真、低延迟语音交互需求。
- 有声读物与内容创作:将文本快速转换为高质量音频,适用于有声书、新闻播报、视频配音等场景。
- 无障碍服务:为视障人士或有阅读障碍的用户将文字信息转化为语音。
- 车载导航与智能硬件:支持车载导航个性化语音播报,适用于智能设备语音提醒与交互。
- 在线教育与语言学习:通过合成不同口音、语速的语音,模拟真实对话场景。
使用教程
- 注册与开通服务:访问讯飞开放平台(www.xfyun.cn),完成注册登录。进入控制台创建应用,选择“在线语音合成”服务。
- 获取免费额度与密钥:创建应用后默认每日500次免费调用。在控制台获取AppID、APIKey、APISecret等密钥。
- 选择接入方式:
- WebSocket API:适用于需要流式传输的场景,轻量、跨语言。
- SDK集成:提供Java、iOS等多种SDK,快速集成。
- 调用API接口:通过WebSocket协议向服务端发起请求,传入文本、指定发音人及参数配置,获取合成音频。单次调用文本长度需小于8000字节(约2000汉字)。
- 发音人授权(可选) :在控制台“发音人授权管理”中添加新发音人音库,部分发音人可试用15天。
价格说明
讯飞语音合成提供免费额度与付费套餐相结合的模式。
- 免费额度:创建应用后每日500次免费调用。可领取免费次数包,每个账号限领一次。
- 在线合成发音人授权:基础发音人免费赠送;特色发音人授权费为2万元/年。
- 离线合成:发音人普通版2000元/个,高品质版4000元/个,一次性授权,配合装机量使用。
- 超拟人语音合成:按字符调用量授权,一个汉字、英文字母、标点符号等均计为一个字符。面向高调用量场景提供并发计费套餐。
- 配音制作服务:支持支付宝及微信付款。部分高级发音人和批量合成需按次付费或开通会员。
(注:具体价格及套餐详情请以讯飞开放平台官网最新公布为准。)
FAQ
Q1:讯飞语音合成由哪家公司开发和运营?
A:由科大讯飞股份有限公司(股票代码:002230)开发运营,通过讯飞开放平台(www.xfyun.cn)提供服务。
Q2:讯飞语音合成支持哪些语言?
A:支持中文、英文、粤语,以及韩语、日语、维吾尔语、藏语、法语、俄语、西班牙语、德语、越南语、泰语等小语种,同时支持四川话、河南话等方言。
Q3:讯飞语音合成如何收费?
A:提供每日500次免费调用额度。特色发音人授权费2万元/年;离线发音人普通版2000元/个,高品质版4000元/个。
Q4:在线语音合成与离线语音合成的区别是什么?
A:在线合成针对有网环境,效果更好、发音人更多,与公有云同步升级;离线合成适用于无网环境,响应速度快。
Q5:如何定制自己的音色?
A:通过一句话声音复刻功能,上传少量录音即可完整捕捉发音特征,实现个性化音色定制。
Q6:讯飞语音合成支持SSML吗?
A:支持。可通过SSML标记语言精细化控制停顿、重音、语调等合成效果。
Q7:单次合成支持多少文字?
A:单次调用文本长度需小于8000字节(约2000汉字)。超长文本可采用分段合成方式。
Q8:发音人可以试用吗?
A:部分发音人支持试用,试用期限为添加后的15天。




