语音识别_实时语音识别录音文件识别_语音转文本服务_腾讯云

简介

腾讯云语音识别（Automatic Speech Recognition, ASR）是腾讯云推出的将语音转化为文字的PaaS服务，为企业提供精准、高性价比的识别服务，已被微信、王者荣耀、腾讯视频等大量内部业务验证使用。

核心功能

腾讯云语音识别系列产品包含以下五个子产品，均以API接口形式（PaaS级）提供服务：

实时语音识别：对实时音频流进行识别，达到“边说边出文字”的效果，适用于语音输入、电话机器人等实时场景。
录音文件识别：对时长5小时以内的录音文件进行异步识别，适用于字幕生成、录音资料转写等非实时场景。
录音文件识别极速版：针对录音文件的快速识别版本，识别时效要求更高的场景。
一句话识别：对60秒以内的短音频进行快速准确识别，适用于语音消息转写等场景。
语音流异步识别：支持语音流的异步识别处理。
多语种与多方言支持：支持中文普通话、英语、日语、韩语、泰语、马来语等15个语种；支持粤语、上海话、四川话等27种方言。普方英大模型支持单一引擎同时识别普通话、英语及多方言混合语音。
热词与自助训练：支持客户自助上传热词词表或自训练语料，无需算法知识即可完成模型调优，有效提升垂直领域的识别准确率。
说话人分离：支持分离1-10位说话人，适用于会议记录、庭审转写等多角色场景。
增值服务：提供情绪识别、口语转书面语、角色分离等增值能力。

产品优势

技术先进：语音识别引擎基于Transformer技术架构，具备良好的鲁棒性。支持声音和文本层面的自适应能力及语言混合识别。
高识别精度：基于LSTM、Attention Model、DeepCNN等多种序列神经网络结构，采用Multitask训练方法，在通用及垂直领域均具备领先的识别精度。ASR大模型在全行业数据集上的识别准确率大幅提升。
抗噪能力强：语音识别模型鲁棒性佳，能够识别嘈杂环境中的音频信息，无需客户进行降噪处理。
性价比高：提供预付费、后付费等多种灵活计费模式。每月赠送免费额度，识别1小时语音成本较低。
海量业务验证：经微信、腾讯视频、王者荣耀等内部业务充分验证，在互联网、金融、教育等领域广泛落地，日服务亿级用户。
高性能低延迟：多地域就近接入，实时识别时延达毫秒级。

应用场景

客服质检：将客服通话录音转化为文本，对违规用语、危险用语进行实时监控与离线异步质检。
会议实时转写：将会议、庭审、采访等场景的音频实时转换为文字，降低人工记录成本。
实时字幕：为直播、视频通话等内容生成实时字幕。
语音输入法：实现智能语音输入，为用户节省输入时间、提升输入体验。
智能客服与电话机器人：为智能客服、外呼中心等场景提供语音转文字能力。
法庭转写：将庭审音频转化为文字记录。
教育场景：适用于课堂语音内容转写、教学辅助等场景。

使用教程

注册与开通服务：访问腾讯云官网完成注册与实名认证。登录语音识别控制台，阅读并同意用户协议后点击开通服务。开通后默认采用后付费计费方式。
领取免费额度：新用户可领取专享资源包——一句话识别5,000次调用、实时语音识别5小时、录音文件识别10小时、语音流异步识别5小时、录音文件识别极速版5小时。
选择接入方式：
- API调用：通过REST API接口调用语音识别服务。
- SDK集成：使用腾讯云提供的SDK（支持多种编程语言）快速集成。
- API 3.0 Explorer：在线调试语音识别相关接口。
配置与调用：
- 一句话识别：调用接口对60秒内短音频进行识别。
- 实时语音识别：通过WebSocket协议对实时音频流进行识别，实现“边说边出文字”。
- 录音文件识别：上传录音文件进行异步识别，1小时音频约3分钟内完成识别。
热词与模型调优（可选） ：在控制台上传热词词表或自训练语料，提升垂直领域识别准确率。

价格说明

腾讯云语音识别提供预付费和后付费两种主要计费模式，扣费顺序为“免费额度 > 预付费 > 后付费”。后付费模式默认关闭，需手动在控制台开启。

免费额度：新用户专享资源包（当月有效）。各子产品均有免费额度，详见计费概述。
预付费（资源包） ：
- 一句话识别资源包：30,000次调用，自购买之日起一年有效。
- 实时语音识别资源包：30小时时长，自购买之日起一年有效。
- 录音文件识别资源包：60小时时长，自购买之日起一年有效。
后付费：按时长计费，最低计费单位为秒。实时语音识别按日结算，录音文件识别按月结算。阶梯计费，用量越高单价越低。
并发/QPS叠加包：在免费并发额度外需进一步提升并发时，可购买并发/QPS叠加包，仅支持预付费。

（注：以上价格信息仅供参考，具体价格及套餐详情请以腾讯云官网最新公布为准。）

FAQ

Q1：腾讯云语音识别由哪家公司开发和运营？

A：由腾讯云计算（北京）有限责任公司开发运营。

Q2：语音识别服务如何开通？

A：登录语音识别控制台，阅读并同意用户协议后点击开通即可。默认开通后付费计费方式。

Q3：腾讯云语音识别支持哪些语言和方言？

A：支持中文普通话、英语、日语、韩语、泰语、马来语等15个语种；支持粤语、上海话、四川话等27种方言。普方英大模型支持单一引擎同时识别普通话、英语及多方言混合语音。

Q4：腾讯云语音识别如何计费？

A：提供预付费（资源包）和后付费两种模式。扣费顺序为“免费额度 > 预付费 > 后付费”。后付费默认关闭，需手动开启。

Q5：是否有免费额度？

A：有。新用户可领取专享资源包，包含一句话识别5,000次调用、实时语音识别5小时、录音文件识别10小时等。

Q6：实时语音识别与录音文件识别有什么区别？

A：实时语音识别适用于实时音频流场景，实现“边说边出文字”；录音文件识别适用于对录音文件进行异步识别，可处理较长音频。

Q7：如何提升特定领域的识别准确率？

A：可在控制台上传热词词表或自训练语料，完成模型自助调优。

Q8：语音识别支持说话人分离吗？

A：支持。可分离1-10位说话人，适用于会议、庭审等多角色场景。

Q9：腾讯云语音识别的识别准确率如何？

A：基于Transformer技术及多种序列神经网络结构，在通用及垂直领域具备领先的识别精度。ASR大模型在全行业数据集上的识别准确率大幅提升。

Q10：语音识别支持哪些音频格式？

A：支持pcm、wav、opus、speex、silk、mp3、m4a、aac等多种音频格式。

数据统计

相关导航

飞书妙记

会议信息无损记录，会议要点全面掌握

Otter Meeting Agent

Otter Meeting Agent 是一款由 AI 驱动的会议记录与知识管理引擎，可自动转录会议对话并生成可搜索、可共享的结构化知识资产。它通过将每一次会议转化为可检索的知识，帮助团队高效追踪决策、行动项与后续跟进。

Toolsummary

Finest AI tools at your Fingertips是一个集合了各种AI工具的网站。它提供了丰富的AI工具，包括图像处理、视频编辑、写作助手、语音转文字等功能。用户可以根据自己的需求选择适合的工具，并享受AI带来的便利和效率。该网站定位于提供最优质的AI工具，帮助用户在各个领域提升工作效率。

OneAudio

OneAudio是一个智能语音转文字的网站应用。它可以帮助用户将语音记录转换成整理好的文字笔记,实现语音思维的数字化。主要功能包括:实时语音转文字、智能汇总关键点、支持多语言、可在线编辑修改、计划推出支持上传音频文件等功能。OneAudio适用于记录会议、整理笔记、写作准备、学习复习等多种场景。使用简单高效,可实现语音思维的数字化和知识的快速提取。

Scribewave

Scribewave是一款AI语音转文字工具，可以轻松将音频和视频文件转录、加字幕和字幕，具有99%的准确率。支持90多种语言，包括英语、荷兰语、法语、德语、西班牙语等。可以无限导出到Word、SRT、VTT、TXT等常用格式。免费试用，付费用户可以使用更多功能。适用于学术研究、媒体制作、法律文书等多个行业。

讯飞听见-免费在线录音转文字-语音转文字-录音整理-语音翻译软件

讯飞听见依托科大讯飞的语音识别技术,打造智慧办公服务平台,提供语音转文字、录音转文字、AI写作、视频会议、视频转文字、视频加字幕、同声翻译、语音翻译等服务,可满足多样化的语音转文字及文字编辑需求,致力于提高办公效率。

腾讯语音识别

简介