CI13XX算法SDK2.6.3开发流程¶

1. 概述¶

CI13XX_SDK_ASR_ALG_V2.6.3版本主要包含了以下算法功能和算法:

算法名称	算法说明
ASR	单双mic麦语音识别，固定词条或者自然说
VPR	基于特定人的声纹识别
WMAN_VPR	男女声纹检测功能
SED_CRY	哭声检测功能
SED_SNORE	鼾声检测功能
DENOISE_NN	基于识别的深度降噪功能
DOA	双麦声源定位功能
CWSL	自学习功能
DERVERB	双麦降混响
AEC	回声消除
CWSL_AEC	自学习加回声消除(当前只支持单mic)
TTS	文本转语音功能(只支持中文、数字、字母, 不支持英文)
BF	双麦语音增强功能
AI_DOA_AEC	双麦声源定位+回声消除功能(需外挂codec-推荐7243e)
DEREVERB_AEC	双麦降混响+回声消除功能(需外挂codec)
BF_AEC	双麦语音增强+回声消除功能(需外挂codec)
DOA_DEREVERB	双麦声源定位+双麦降混响功能(仅双mic可用)
BF_DEREVERB	双麦语音增强+双麦降混响功能(仅双mic可用)
CWSL_DOA	自学习+双麦声源定位功能(仅双mic可用)
ANY_MIC_AEC	任意MIC识别+回声消除功能(需外挂codec)
CWSL_DOA_AEC	自学习+双麦声源定位+回声消除功能(需外挂codec)
CWSL_ANY_MIC_AEC	自学习+任意MIC识别+回声消除功能(需外挂codec)
DOA_DEREVERB_AEC	双麦声源定位+双麦降混响+回声消除功能(需外挂codec)
PWK	声音能量值值计算功能，区分目标声音距离
ALC	自动增益控制

注意

使用声纹注册、男女声纹检测、哭声鼾声检测、深度降噪、声源定位、语音合成算法时，在firmware\dnn文件中需搭配该算法的前端算法模型使用。

2. 算法功能组合说明¶

开启算法	说明
ASR	只开识别，不开其他算法
ASR+声纹	同时开启识别加VPR声纹注册功能
ASR+男女声纹	同时开启识别加WMAN_VPR男女声纹识别功能
ASR+深度降噪	同时开启识别加DENOISE_NN深度降噪功能
ASR+声源定位	同时开启识别加DOA声源定位功能
ASR+自学习	同时开启识别加CWSL自学习功能
ASR+降混响	同时开启识别加DERVERB降混响功能
ASR+回声消除	同时开启识别加AEC回声消除功能
ASR+自学习+回声消除	同时开启识别加自学习加回声消除
ASR+双麦语音增强	同时开启识别加双麦语音增强
ASR+声源定位+回声消除	同时开启识别加声源定位加回声消除
ASR+降混响+回声消除	同时开启识别加降混响加回声消除
ASR+双麦语音增强+回声消除	同时开启识别加双麦语音增强加回声消除
ASR+双麦声源定位+降混响	同时开启识别加双麦声源定位加降混响
ASR+双麦语音增强+降混响	同时开启识别加双麦语音增强加降混响
ASR+自学习+双麦声源定位	同时开启识别加自学习加双麦声源定位
ASR+任意MIC识别+回声消除	同时开启识别加任意MIC识别加回声消除
ASR+自学习加双麦声源定位+回声消除	同时开启识别加自学习加双麦声源定位加回声消除
ASR+声源定位+降混响	同时开启识别加声源定位加降混响
ASR+自学习+双麦声源定位+回声消除	同时开启识别加自学习加双麦声源定位加回声消除
语音合成	TTS语音合成不支持识别
哭声检测	SED_CRY哭声检测不支持识别和其他算法功能
鼾声检测	SED_SNORE鼾声检测不支持识别和其他算法功能

注意

除了上表算法组合功能，不支持其他组合，请勿随意组合算法功能，否则会出现sdk编译异常或者运行故障。

3. 算法功能使用说明¶

3.1 在CI13XX_SDK_ALG_PRO_Vx.x.x\project_file\makefile文件定义了CI_ALG_TYPE变量，通过修改该变量的值，选择使用对应的算法功能，makefile中会自动根据CI_ALG_TYPE的配置去定义和使能对应的宏，用户不需要再去重复定义使能相关宏参数；CI_ALG_TYPE默认等于USE_NULL。例如：应用中只需要用到ASR识别功能，不需要用到其他算法功能，配置如下图： CI_ALG_TYPE配置 如果需要用自学习+AEC算法，配置如下图：

3.2 CI_ALG_TYPE变量和算法功能对应关系表如下：

CI_ALG_TYPE	算法功能说明
USE_NULL	只开语音识别，不开其他算法
USE_VPR	开启识别+声纹注册功能
USE_WMAN_VPR	开启识别+男女声纹识别
USE_SED_CRY	开启哭声检测，不支持语音识别
USE_SED_SNORE	开启鼾声检测，不支持语音识别
USE_TTS	开启文字转语音，不支持语音识别
USE_DENOISE_NN	开启识别+深度降噪
USE_AI_DOA	开启识别+声源定位
USE_CWSL	开启识别+自学习
USE_DEREVERB	开启识别+降混响
USE_AEC	开启识别+回声消除
USE_CWSL_AEC	开启识别+自学习+回声消除
USE_BF	开启识别+双麦语音增强
USE_AI_DOA_AEC	开启识别+声源定位+回声消除
USE_DEREVERB_AEC	开启识别+降混响+回声消除
USE_BF_AEC	开启识别+双麦语音增强
USE_DOA_DEREVERB	开启识别+声源定位+降混响
USE_BF_DEREVERB	开启识别+双麦语音增强+降混响
USE_CWSL_DOA	开启识别+自学习+声源定位
USE_CWSL_DOA_AEC	开启识别+自学习+声源定位+回声消除
USE_CWSL_ANY_MIC_AEC	开启识别+自学习+任意mic识别+回声消除
USE_DOA_DEREVERB_AEC	开启识别+声源定位+降混响+回声消除

4. 模型ID定义¶

开启算法功能需使用不同的前端算法模型，各个算法模型对应ID如下表：

模型ID	模型类型	对应算法
60001	声纹识别模型	声纹注册算法
60002	哭声检测模型	哭声检测算法
60003	NN深度降噪模型	深度降噪算法
60004	DOA声源定位模型	声源定位算法
60005	鼾声检测模型	鼾声检测算法
60008	男女声纹检测模型	男女声纹检测算法
60009	TTS语音合成模型	TTS算法(需要同时用60009和60010)
60010	TTS语音合成模型	TTS算法(需要同时用60009和60010)

5. SDK开发包下载¶

5.1 注册并登录AI开发平台：https://aiplatform.chipintelli.com

5.2 获取算法SDK CI13XX_SDK_ASR_ALG_VXX的软件开发包：https://aiplatform.chipintelli.com/attachment， (若有新版本，请使用最新版本的SDK),如下图： SDK下载