简介
百度智能云语音识别(Automatic Speech Recognition, ASR)是百度基于深度神经网络技术推出的将语音实时转换为文字的AI服务,以高准确率、低延迟和多场景适配为核心优势,支持多语种、多方言及垂直领域定制。
核心功能
- 短语音识别:将60秒以内的音频精准识别为文字,通过REST API方式提供通用的HTTP接口,适用于语音对话、语音控制、语音输入等场景。极速版采用专有GPU服务集群,识别速度较标准版提升2倍,准确率提升15%。
- 实时语音识别:采用WebSocket协议的连接方式,支持音频流实时识别为文字,实现”边说边出文字”的效果,适用于实时交互场景。
- 录音文件识别:上传完整录音文件进行异步识别,支持长语音场景(如会议记录),通过上下文关联模型将错误率降低30%。
- 多语种与多方言支持:支持中文普通话(近场识别准确率达98%)、英文、粤语、四川话、东北话等多种方言。方言模型识别准确率较通用模型提升15%-20%。
- 语义理解与对话定制:支持50多个领域的语义理解,如天气、交通、娱乐等,提高用户意图识别准确性。可接入智能对话定制与服务平台(UNIT)自定义语义理解和对话服务。
- 语音识别模型自训练:支持在语音自训练平台上自助训练模型,上传词汇文本即可零代码完成训练,精准提升业务领域词汇识别率5%-25%。适用于金融、医疗、餐饮、地产、制造等行业术语优化。
- 智能断句与数字转换:根据语音内容与停顿智能匹配标点,使识别表达更自然;支持数字序列、小数、时间、分数和运算符格式转换。
- 多格式音频支持:支持pcm、wav、amr、m4a等多种音频格式,采样率支持16000Hz和8000Hz(仅普通话模型)。
产品优势
- 高识别准确率:采用流式端到端语音一体化建模方法,近场中文普通话识别准确率达98%。采用端到端(End-to-End)建模技术,直接通过神经网络完成声学特征到文本的映射。
- 低延迟实时响应:通过流式识别技术支持边输入边输出,延迟控制在200ms以内。在标准测试集中,短语音识别准确率达98%以上。
- 多场景适配能力:提供通用、视频、电话、输入法等垂直领域模型,针对不同噪声环境(如车载、会议)和发音特点(如方言、儿童语音)进行专项优化。提供医疗、法律、金融等12个垂直领域的专用模型。
- 服务稳定可靠:依托分布式架构与弹性扩容能力,保障高并发场景下的稳定服务,服务稳定性达99.9%。
- 灵活的部署与集成:提供REST API、WebSocket及官方SDK(Python/Java/C++等),支持Web、移动端、IoT设备等多终端接入。
- 自助训练与持续优化:支持零代码语音自助训练,上传词汇文本即可完成训练,精准提升业务领域词汇识别率。
应用场景
- 智能客服系统:将用户语音咨询转化为文本,结合自然语言处理实现自动应答。某银行接入后,人工坐席工作量减少40%,客户等待时间从平均3分钟降至15秒。
- 会议纪要生成:将会议录音自动转化为文字稿,结合说话人分离技术实现多人对话区分。1小时会议的纪要生成时间从人工2小时缩短至8分钟。
- 语音输入与语音搜索:摆脱生僻字和拼音障碍,使用语音即时输入,略带口音的普通话、方言、英文均可有效识别。
- 语音指令与智能控制:通过语音直接对设备或软件发布指令,适用于智能硬件、车载系统、机器人、手机APP、游戏等领域。
- 智能家居与远场交互:集成百度ASR后实现远场语音交互(距离5米以上),唤醒率达99%,指令识别准确率97%。
- 工业设备监控:通过异常声音识别设备故障,采集电机运转声音与正常模型比对,提前预警轴承磨损等故障。
- 教育、医疗、金融等垂直领域:通过定制模型,将行业专业术语识别错误率从12%降至3%。农业领域通过语音自训练平台训练后,整体语音识别率从71.09%提高到了98.75%。
使用教程
- 注册与开通服务:访问百度智能云平台,完成账号注册与实名认证。进入控制台”产品服务”→”人工智能”→”语音技术”,选择”语音识别”服务。
- 创建应用并获取密钥:在语音技术页面点击”创建应用”,填写应用名称、描述等信息。创建完成后系统将生成API Key和Secret Key,这是调用API时进行身份验证的关键。
- 领取免费测试资源:完成实名认证的账号可自动领取免费测试资源。企业认证可获得短语音识别标准版-中文普通话100千次免费调用,个人认证50千次。
- 选择接入方式:
- 短语音识别:通过REST API方式调用,上传完整的录音文件(不超过60秒),支持pcm、wav、amr、m4a等格式。
- 实时语音识别:通过WebSocket协议连接,支持音频流实时识别。
- SDK集成:使用百度提供的SDK(支持Python/Java/C++等)快速集成。
- Python SDK调用示例:
from aip import AipSpeech APP_ID = '你的AppID' API_KEY = '你的API Key' SECRET_KEY = '你的Secret Key' client = AipSpeech(APP_ID, API_KEY, SECRET_KEY) def get_file_content(filePath): with open(filePath, 'rb') as fp: return fp.read() # 识别本地文件 result = client.asr( get_file_content('audio.wav'), # 音频数据 'wav', # 音频格式:pcm/wav/amr/m4a 16000, # 采样率:16000或8000 {'dev_pid': 1537} # 1537=普通话,1737=英语,1936=粤语 ) print(result['result'][0])
- 模型自训练(可选) :访问语音自训练平台,上传词汇和长文本进行模型训练,训练完成后调用API时添加训练模型ID即可生效。
价格说明
百度智能云语音识别提供预付费(次数包)和后付费(按调用量阶梯)两种计费方式。
免费额度:
| 接口服务 | 认证状态 | 免费并发 | 免费调用次数 |
|---|---|---|---|
| 短语音识别标准版-中文普通话 | 个人认证 | 5并发 | 50千次 |
| 短语音识别标准版-中文普通话 | 企业认证 | 10并发 | 100千次 |
| 短语音识别标准版-英文/粤语/四川话 | 个人认证 | 3并发 | 30千次 |
| 短语音识别标准版-英文/粤语/四川话 | 企业认证 | 5并发 | 50千次 |
| 短语音识别极速版 | 个人/企业认证 | 5并发 | 50千次 |
预付费(次数包) :适用于调用量可预估的企业,次数包购买之日起一年内有效。短语音识别标准版-中文普通话1000千次约2400元。
后付费(按调用量阶梯) :适用于不便预估调用量的企业。短语音识别标准版-中文普通话3.4元/千次。
实时语音识别:免费额度10小时,超出后按时长计费,约3元/小时。
音频文件转写:免费额度10小时。
(注:以上价格信息仅供参考,具体价格及套餐详情请以百度智能云官网最新公布为准。)
FAQ
Q1:百度智能云语音识别由哪家公司开发和运营?
A:由百度(百度智能云)开发运营。
Q2:百度语音识别支持哪些语言和方言?
A:支持中文普通话、英文、粤语、四川话、东北话等。近场中文普通话识别准确率达98%。
Q3:百度语音识别如何计费?
A:提供预付费(次数包)和后付费(按调用量阶梯)两种方式。扣费顺序为”免费额度 > 预付费 > 后付费”。
Q4:是否有免费额度?
A:有。企业认证用户可领取短语音识别标准版-中文普通话100千次免费调用,个人认证50千次。
Q5:短语音识别和实时语音识别有什么区别?
A:短语音识别通过REST API上传完整录音文件(不超过60秒)进行识别;实时语音识别通过WebSocket协议对音频流进行实时识别,实现”边说边出文字”。
Q6:如何提升特定领域的识别准确率?
A:通过语音自训练平台上传词汇和长文本进行模型训练,可精准提升业务领域词汇识别率5%-25%。
Q7:百度语音识别支持哪些音频格式?
A:支持pcm、wav、amr、m4a等格式,采样率要求16000Hz或8000Hz(仅普通话模型)。
Q8:百度语音识别支持长语音识别吗?
A:支持。录音文件识别功能可处理长语音场景(如会议记录),通过上下文关联模型将错误率降低30%。
Q9:百度语音识别如何确保服务稳定性?
A:依托分布式架构与弹性扩容能力,单接口QPS可达万级,服务稳定性达99.9%。
Q10:百度语音识别支持哪些集成方式?
A:支持REST API、WebSocket协议及官方SDK(Python/Java/C++等)。




