跳转至

CI13XX算法SDK2.6.3开发流程


1. 概述

CI13XX_SDK_ASR_ALG_V2.6.3版本主要包含了以下算法功能和算法:

算法名称 算法说明
ASR 单双mic麦语音识别,固定词条或者自然说
VPR 基于特定人的声纹识别
WMAN_VPR 男女声纹检测功能
SED_CRY 哭声检测功能
SED_SNORE 鼾声检测功能
DENOISE_NN 基于识别的深度降噪功能
DOA 双麦声源定位功能
CWSL 自学习功能
DERVERB 双麦降混响
AEC 回声消除
CWSL_AEC 自学习加回声消除(当前只支持单mic)
TTS 文本转语音功能(只支持中文、数字、字母, 不支持英文)
BF 双麦语音增强功能
AI_DOA_AEC 双麦声源定位+回声消除功能(需外挂codec-推荐7243e)
DEREVERB_AEC 双麦降混响+回声消除功能(需外挂codec)
BF_AEC 双麦语音增强+回声消除功能(需外挂codec)
DOA_DEREVERB 双麦声源定位+双麦降混响功能(仅双mic可用)
BF_DEREVERB 双麦语音增强+双麦降混响功能(仅双mic可用)
CWSL_DOA 自学习+双麦声源定位功能(仅双mic可用)
ANY_MIC_AEC 任意MIC识别+回声消除功能(需外挂codec)
CWSL_DOA_AEC 自学习+双麦声源定位+回声消除功能(需外挂codec)
CWSL_ANY_MIC_AEC 自学习+任意MIC识别+回声消除功能(需外挂codec)
DOA_DEREVERB_AEC 双麦声源定位+双麦降混响+回声消除功能(需外挂codec)
PWK 声音能量值值计算功能,区分目标声音距离
ALC 自动增益控制

注意

  1. 使用声纹注册、男女声纹检测、哭声鼾声检测、深度降噪、声源定位、语音合成算法时,在firmware\dnn文件中需搭配该算法的前端算法模型使用。
  2. 声纹注册、男女声纹检测、语音合成算法: 需要购买license,未烧录量产密码,固件每五分钟(TTS算法10秒)会复位一次,如有量产需求,请联系启英泰伦商务。

2. 算法功能组合说明:

开启算法 说明
ASR 只开识别,不开其他算法
ASR+声纹 同时开启识别加VPR声纹注册功能
ASR+男女声纹 同时开启识别加WMAN_VPR男女声纹识别功能
ASR+深度降噪 同时开启识别加DENOISE_NN深度降噪功能
ASR+声源定位 同时开启识别加DOA声源定位功能
ASR+自学习 同时开启识别加CWSL自学习功能
ASR+降混响 同时开启识别加DERVERB降混响功能
ASR+回声消除 同时开启识别加AEC回声消除功能
ASR+自学习+回声消除 同时开启识别加自学习加回声消除
ASR+双麦语音增强 同时开启识别加双麦语音增强
ASR+声源定位+回声消除 同时开启识别加声源定位加回声消除
ASR+降混响+回声消除 同时开启识别加降混响加回声消除
ASR+双麦语音增强+回声消除 同时开启识别加双麦语音增强加回声消除
ASR+双麦声源定位+降混响 同时开启识别加双麦声源定位加降混响
ASR+双麦语音增强+降混响 同时开启识别加双麦语音增强加降混响
ASR+自学习+双麦声源定位 同时开启识别加自学习加双麦声源定位
ASR+任意MIC识别+回声消除 同时开启识别加任意MIC识别加回声消除
ASR+自学习加双麦声源定位+回声消除 同时开启识别加自学习加双麦声源定位加回声消除
ASR+声源定位+降混响 同时开启识别加声源定位加降混响
ASR+自学习+双麦声源定位+回声消除 同时开启识别加自学习加双麦声源定位加回声消除
语音合成 TTS语音合成不支持识别
哭声检测 SED_CRY哭声检测不支持识别和其他算法功能
鼾声检测 SED_SNORE鼾声检测不支持识别和其他算法功能
***

注意

除了上表算法组合功能,不支持其他组合,请勿随意组合算法功能,否则会出现sdk编译异常或者运行故障。

3. 算法功能使用说明

3.1 在CI13XX_SDK_ALG_PRO_Vx.x.x\project_file\makefile文件定义了CI_ALG_TYPE变量,通过修改该变量的值,选择使用对应的算法功能,makefile中会自动根据CI_ALG_TYPE的配置去定义和使能对应的宏,用户不需要再去重复定义使能相关宏参数;CI_ALG_TYPE默认等于USE_NULL。例如:应用中只需要用到ASR识别功能,不需要用到其他算法功能,配置如下图: CI_ALG_TYPE配置 如果需要用自学习+AEC算法,配置如下图: CI_ALG_TYPE配置

3.2 CI_ALG_TYPE变量和算法功能对应关系表如下:

CI_ALG_TYPE 算法功能说明
USE_NULL 只开语音识别,不开其他算法
USE_VPR 开启识别+声纹注册功能
USE_WMAN_VPR 开启识别+男女声纹识别
USE_SED_CRY 开启哭声检测,不支持语音识别
USE_SED_SNORE 开启鼾声检测,不支持语音识别
USE_TTS 开启文字转语音,不支持语音识别
USE_DENOISE_NN 开启识别+深度降噪
USE_AI_DOA 开启识别+声源定位
USE_CWSL 开启识别+自学习
USE_DEREVERB 开启识别+降混响
USE_AEC 开启识别+回声消除
USE_CWSL_AEC 开启识别+自学习+回声消除
USE_BF 开启识别+双麦语音增强
USE_AI_DOA_AEC 开启识别+声源定位+回声消除
USE_DEREVERB_AEC 开启识别+降混响+回声消除
USE_BF_AEC 开启识别+双麦语音增强
USE_DOA_DEREVERB 开启识别+声源定位+降混响
USE_BF_DEREVERB 开启识别+双麦语音增强+降混响
USE_CWSL_DOA 开启识别+自学习+声源定位
USE_CWSL_DOA_AEC 开启识别+自学习+声源定位+回声消除
USE_CWSL_ANY_MIC_AEC 开启识别+自学习+任意mic识别+回声消除
USE_DOA_DEREVERB_AEC 开启识别+声源定位+降混响+回声消除
***

4. 模型ID定义

开启算法功能需使用不同的前端算法模型,各个算法模型对应ID如下表:

模型ID 模型类型 对应算法
60001 声纹识别模型 声纹注册算法
60002 哭声检测模型 哭声检测算法
60003 NN深度降噪模型 深度降噪算法
60004 DOA声源定位模型 声源定位算法
60005 鼾声检测模型 鼾声检测算法
60008 男女声纹检测模型 男女声纹检测算法
60009 TTS语音合成模型 TTS算法(需要同时用60009和60010)
60010 TTS语音合成模型 TTS算法(需要同时用60009和60010)

5. SDK开发包下载:

5.1 注册并登录AI开发平台:https://aiplatform.chipintelli.com

5.2 获取算法SDK CI13XX_SDK_ASR_ALG_VXX的软件开发包:https://aiplatform.chipintelli.com/attachment, (若有新版本,请使用最新版本的SDK),如下图: SDK下载