跳转至

离线语音指令识别简介

1. 离线语音(指令)识别

ASR(Automatic Speech Recognition) 自动语音识别,指通过算法将人类语音实时转换为文本的技术,离线语音指令识别是语音识别的一种,离线语音指令识别是一种在 本地设备 (不依赖云端服务器,不联网)实时处理语音信号,并将其转换为预定义文本指令的技术。它通过设备内置的算法模型直接解析用户说出的关键词或短语,触发相应的本地操作。

语音识别流程图

ASR流程图

2. 相关术语说明

VADVoice Activity Detection): 语音活动检测,识别音频流中人声的开始与结束点;

唤醒词Wake Word):激活语音系统的起始词(如“启英泰伦”),使设备进入指令监听状态;

命令词Command Word):在唤醒后识别,触发具体操作的语音指令(如“打开空调”);

OneShot :唤醒词+命令词一次性说完(如“启英泰伦打开空调”),无需分两步操作;

置信度阈值 :识别结果可信度分数(0~255),高于阈值才触发操作例:阈值=40时,“打开空调”识别分数超过40则执行,可用于平衡误触发率与漏识别率;

语义槽位 :从指令中提取的关键参数 例:“调高温度到25度” → 槽位 {动作:调高, 对象:温度, 值:25},实现复杂指令解析。

3. API 参考