简介
腾讯云语音识别(Automatic Speech Recognition, ASR)是腾讯云推出的将语音转化为文字的PaaS服务,为企业提供精准、高性价比的识别服务,已被微信、王者荣耀、腾讯视频等大量内部业务验证使用。

核心功能
腾讯云语音识别系列产品包含以下五个子产品,均以API接口形式(PaaS级)提供服务:
- 实时语音识别:对实时音频流进行识别,达到“边说边出文字”的效果,适用于语音输入、电话机器人等实时场景。
- 录音文件识别:对时长5小时以内的录音文件进行异步识别,适用于字幕生成、录音资料转写等非实时场景。
- 录音文件识别极速版:针对录音文件的快速识别版本,识别时效要求更高的场景。
- 一句话识别:对60秒以内的短音频进行快速准确识别,适用于语音消息转写等场景。
- 语音流异步识别:支持语音流的异步识别处理。
- 多语种与多方言支持:支持中文普通话、英语、日语、韩语、泰语、马来语等15个语种;支持粤语、上海话、四川话等27种方言。普方英大模型支持单一引擎同时识别普通话、英语及多方言混合语音。
- 热词与自助训练:支持客户自助上传热词词表或自训练语料,无需算法知识即可完成模型调优,有效提升垂直领域的识别准确率。
- 说话人分离:支持分离1-10位说话人,适用于会议记录、庭审转写等多角色场景。
- 增值服务:提供情绪识别、口语转书面语、角色分离等增值能力。
产品优势
- 技术先进:语音识别引擎基于Transformer技术架构,具备良好的鲁棒性。支持声音和文本层面的自适应能力及语言混合识别。
- 高识别精度:基于LSTM、Attention Model、DeepCNN等多种序列神经网络结构,采用Multitask训练方法,在通用及垂直领域均具备领先的识别精度。ASR大模型在全行业数据集上的识别准确率大幅提升。
- 抗噪能力强:语音识别模型鲁棒性佳,能够识别嘈杂环境中的音频信息,无需客户进行降噪处理。
- 性价比高:提供预付费、后付费等多种灵活计费模式。每月赠送免费额度,识别1小时语音成本较低。
- 海量业务验证:经微信、腾讯视频、王者荣耀等内部业务充分验证,在互联网、金融、教育等领域广泛落地,日服务亿级用户。
- 高性能低延迟:多地域就近接入,实时识别时延达毫秒级。
应用场景
- 客服质检:将客服通话录音转化为文本,对违规用语、危险用语进行实时监控与离线异步质检。
- 会议实时转写:将会议、庭审、采访等场景的音频实时转换为文字,降低人工记录成本。
- 实时字幕:为直播、视频通话等内容生成实时字幕。
- 语音输入法:实现智能语音输入,为用户节省输入时间、提升输入体验。
- 智能客服与电话机器人:为智能客服、外呼中心等场景提供语音转文字能力。
- 法庭转写:将庭审音频转化为文字记录。
- 教育场景:适用于课堂语音内容转写、教学辅助等场景。
使用教程
- 注册与开通服务:访问腾讯云官网完成注册与实名认证。登录语音识别控制台,阅读并同意用户协议后点击开通服务。开通后默认采用后付费计费方式。
- 领取免费额度:新用户可领取专享资源包——一句话识别5,000次调用、实时语音识别5小时、录音文件识别10小时、语音流异步识别5小时、录音文件识别极速版5小时。
- 选择接入方式:
- API调用:通过REST API接口调用语音识别服务。
- SDK集成:使用腾讯云提供的SDK(支持多种编程语言)快速集成。
- API 3.0 Explorer:在线调试语音识别相关接口。
- 配置与调用:
- 一句话识别:调用接口对60秒内短音频进行识别。
- 实时语音识别:通过WebSocket协议对实时音频流进行识别,实现“边说边出文字”。
- 录音文件识别:上传录音文件进行异步识别,1小时音频约3分钟内完成识别。
- 热词与模型调优(可选) :在控制台上传热词词表或自训练语料,提升垂直领域识别准确率。
价格说明
腾讯云语音识别提供预付费和后付费两种主要计费模式,扣费顺序为“免费额度 > 预付费 > 后付费”。后付费模式默认关闭,需手动在控制台开启。
- 免费额度:新用户专享资源包(当月有效)。各子产品均有免费额度,详见计费概述。
- 预付费(资源包) :
- 一句话识别资源包:30,000次调用,自购买之日起一年有效。
- 实时语音识别资源包:30小时时长,自购买之日起一年有效。
- 录音文件识别资源包:60小时时长,自购买之日起一年有效。
- 后付费:按时长计费,最低计费单位为秒。实时语音识别按日结算,录音文件识别按月结算。阶梯计费,用量越高单价越低。
- 并发/QPS叠加包:在免费并发额度外需进一步提升并发时,可购买并发/QPS叠加包,仅支持预付费。
(注:以上价格信息仅供参考,具体价格及套餐详情请以腾讯云官网最新公布为准。)
FAQ
Q1:腾讯云语音识别由哪家公司开发和运营?
A:由腾讯云计算(北京)有限责任公司开发运营。
Q2:语音识别服务如何开通?
A:登录语音识别控制台,阅读并同意用户协议后点击开通即可。默认开通后付费计费方式。
Q3:腾讯云语音识别支持哪些语言和方言?
A:支持中文普通话、英语、日语、韩语、泰语、马来语等15个语种;支持粤语、上海话、四川话等27种方言。普方英大模型支持单一引擎同时识别普通话、英语及多方言混合语音。
Q4:腾讯云语音识别如何计费?
A:提供预付费(资源包)和后付费两种模式。扣费顺序为“免费额度 > 预付费 > 后付费”。后付费默认关闭,需手动开启。
Q5:是否有免费额度?
A:有。新用户可领取专享资源包,包含一句话识别5,000次调用、实时语音识别5小时、录音文件识别10小时等。
Q6:实时语音识别与录音文件识别有什么区别?
A:实时语音识别适用于实时音频流场景,实现“边说边出文字”;录音文件识别适用于对录音文件进行异步识别,可处理较长音频。
Q7:如何提升特定领域的识别准确率?
A:可在控制台上传热词词表或自训练语料,完成模型自助调优。
Q8:语音识别支持说话人分离吗?
A:支持。可分离1-10位说话人,适用于会议、庭审等多角色场景。
Q9:腾讯云语音识别的识别准确率如何?
A:基于Transformer技术及多种序列神经网络结构,在通用及垂直领域具备领先的识别精度。ASR大模型在全行业数据集上的识别准确率大幅提升。
Q10:语音识别支持哪些音频格式?
A:支持pcm、wav、opus、speex、silk、mp3、m4a、aac等多种音频格式。




