CI13XX算法SDK2.6.3开发流程¶
1. 概述¶
CI13XX_SDK_ASR_ALG_V2.6.3版本主要包含了以下算法功能和算法:
| 算法名称 | 算法说明 |
|---|---|
| ASR | 单双mic麦语音识别,固定词条或者自然说 |
| VPR | 基于特定人的声纹识别 |
| WMAN_VPR | 男女声纹检测功能 |
| SED_CRY | 哭声检测功能 |
| SED_SNORE | 鼾声检测功能 |
| DENOISE_NN | 基于识别的深度降噪功能 |
| DOA | 双麦声源定位功能 |
| CWSL | 自学习功能 |
| DERVERB | 双麦降混响 |
| AEC | 回声消除 |
| CWSL_AEC | 自学习加回声消除(当前只支持单mic) |
| TTS | 文本转语音功能(只支持中文、数字、字母, 不支持英文) |
| BF | 双麦语音增强功能 |
| AI_DOA_AEC | 双麦声源定位+回声消除功能(需外挂codec-推荐7243e) |
| DEREVERB_AEC | 双麦降混响+回声消除功能(需外挂codec) |
| BF_AEC | 双麦语音增强+回声消除功能(需外挂codec) |
| DOA_DEREVERB | 双麦声源定位+双麦降混响功能(仅双mic可用) |
| BF_DEREVERB | 双麦语音增强+双麦降混响功能(仅双mic可用) |
| CWSL_DOA | 自学习+双麦声源定位功能(仅双mic可用) |
| ANY_MIC_AEC | 任意MIC识别+回声消除功能(需外挂codec) |
| CWSL_DOA_AEC | 自学习+双麦声源定位+回声消除功能(需外挂codec) |
| CWSL_ANY_MIC_AEC | 自学习+任意MIC识别+回声消除功能(需外挂codec) |
| DOA_DEREVERB_AEC | 双麦声源定位+双麦降混响+回声消除功能(需外挂codec) |
| PWK | 声音能量值值计算功能,区分目标声音距离 |
| ALC | 自动增益控制 |
注意
- 使用声纹注册、男女声纹检测、哭声鼾声检测、深度降噪、声源定位、语音合成算法时,在firmware\dnn文件中需搭配该算法的前端算法模型使用。
- 声纹注册、男女声纹检测、语音合成算法: 需要购买license,未烧录量产密码,固件每五分钟(TTS算法10秒)会复位一次,如有量产需求,请联系启英泰伦商务。
2. 算法功能组合说明:¶
| 开启算法 | 说明 |
|---|---|
| ASR | 只开识别,不开其他算法 |
| ASR+声纹 | 同时开启识别加VPR声纹注册功能 |
| ASR+男女声纹 | 同时开启识别加WMAN_VPR男女声纹识别功能 |
| ASR+深度降噪 | 同时开启识别加DENOISE_NN深度降噪功能 |
| ASR+声源定位 | 同时开启识别加DOA声源定位功能 |
| ASR+自学习 | 同时开启识别加CWSL自学习功能 |
| ASR+降混响 | 同时开启识别加DERVERB降混响功能 |
| ASR+回声消除 | 同时开启识别加AEC回声消除功能 |
| ASR+自学习+回声消除 | 同时开启识别加自学习加回声消除 |
| ASR+双麦语音增强 | 同时开启识别加双麦语音增强 |
| ASR+声源定位+回声消除 | 同时开启识别加声源定位加回声消除 |
| ASR+降混响+回声消除 | 同时开启识别加降混响加回声消除 |
| ASR+双麦语音增强+回声消除 | 同时开启识别加双麦语音增强加回声消除 |
| ASR+双麦声源定位+降混响 | 同时开启识别加双麦声源定位加降混响 |
| ASR+双麦语音增强+降混响 | 同时开启识别加双麦语音增强加降混响 |
| ASR+自学习+双麦声源定位 | 同时开启识别加自学习加双麦声源定位 |
| ASR+任意MIC识别+回声消除 | 同时开启识别加任意MIC识别加回声消除 |
| ASR+自学习加双麦声源定位+回声消除 | 同时开启识别加自学习加双麦声源定位加回声消除 |
| ASR+声源定位+降混响 | 同时开启识别加声源定位加降混响 |
| ASR+自学习+双麦声源定位+回声消除 | 同时开启识别加自学习加双麦声源定位加回声消除 |
| 语音合成 | TTS语音合成不支持识别 |
| 哭声检测 | SED_CRY哭声检测不支持识别和其他算法功能 |
| 鼾声检测 | SED_SNORE鼾声检测不支持识别和其他算法功能 |
| *** |
注意
除了上表算法组合功能,不支持其他组合,请勿随意组合算法功能,否则会出现sdk编译异常或者运行故障。
3. 算法功能使用说明¶
3.1 在CI13XX_SDK_ALG_PRO_Vx.x.x\project_file\makefile文件定义了CI_ALG_TYPE变量,通过修改该变量的值,选择使用对应的算法功能,makefile中会自动根据CI_ALG_TYPE的配置去定义和使能对应的宏,用户不需要再去重复定义使能相关宏参数;CI_ALG_TYPE默认等于USE_NULL。例如:应用中只需要用到ASR识别功能,不需要用到其他算法功能,配置如下图:
如果需要用自学习+AEC算法,配置如下图:

3.2 CI_ALG_TYPE变量和算法功能对应关系表如下:
| CI_ALG_TYPE | 算法功能说明 |
|---|---|
| USE_NULL | 只开语音识别,不开其他算法 |
| USE_VPR | 开启识别+声纹注册功能 |
| USE_WMAN_VPR | 开启识别+男女声纹识别 |
| USE_SED_CRY | 开启哭声检测,不支持语音识别 |
| USE_SED_SNORE | 开启鼾声检测,不支持语音识别 |
| USE_TTS | 开启文字转语音,不支持语音识别 |
| USE_DENOISE_NN | 开启识别+深度降噪 |
| USE_AI_DOA | 开启识别+声源定位 |
| USE_CWSL | 开启识别+自学习 |
| USE_DEREVERB | 开启识别+降混响 |
| USE_AEC | 开启识别+回声消除 |
| USE_CWSL_AEC | 开启识别+自学习+回声消除 |
| USE_BF | 开启识别+双麦语音增强 |
| USE_AI_DOA_AEC | 开启识别+声源定位+回声消除 |
| USE_DEREVERB_AEC | 开启识别+降混响+回声消除 |
| USE_BF_AEC | 开启识别+双麦语音增强 |
| USE_DOA_DEREVERB | 开启识别+声源定位+降混响 |
| USE_BF_DEREVERB | 开启识别+双麦语音增强+降混响 |
| USE_CWSL_DOA | 开启识别+自学习+声源定位 |
| USE_CWSL_DOA_AEC | 开启识别+自学习+声源定位+回声消除 |
| USE_CWSL_ANY_MIC_AEC | 开启识别+自学习+任意mic识别+回声消除 |
| USE_DOA_DEREVERB_AEC | 开启识别+声源定位+降混响+回声消除 |
| *** |
4. 模型ID定义¶
开启算法功能需使用不同的前端算法模型,各个算法模型对应ID如下表:
| 模型ID | 模型类型 | 对应算法 |
|---|---|---|
| 60001 | 声纹识别模型 | 声纹注册算法 |
| 60002 | 哭声检测模型 | 哭声检测算法 |
| 60003 | NN深度降噪模型 | 深度降噪算法 |
| 60004 | DOA声源定位模型 | 声源定位算法 |
| 60005 | 鼾声检测模型 | 鼾声检测算法 |
| 60008 | 男女声纹检测模型 | 男女声纹检测算法 |
| 60009 | TTS语音合成模型 | TTS算法(需要同时用60009和60010) |
| 60010 | TTS语音合成模型 | TTS算法(需要同时用60009和60010) |
5. SDK开发包下载:¶
5.1 注册并登录AI开发平台:https://aiplatform.chipintelli.com
5.2 获取算法SDK CI13XX_SDK_ASR_ALG_VXX的软件开发包:https://aiplatform.chipintelli.com/attachment, (若有新版本,请使用最新版本的SDK),如下图:
