跳转至

CI13XX 系列芯片SDK

目前CI13XX系列芯片的SDK根据不同应用场景有如下版本分类:

1. 离线语音识别SDK :CI-SDK-ASR-Offline

注意

SDK发布版本格式:CI13XX_SDK_ASR_Offline_Vx.x.x

主要针对纯离线简单应用场景,例如智能家居等,支持的音频前端算法有:

  • ASR (语音识别-单麦克风)
  • CWSL(离线命令词自学习功能)
  • AEC (回声消除)

2. 离线语音算法SDK :CI-SDK-ASR-ALG

注意

SDK发布版本格式:CI13XX_SDK_ASR_ALG_Vx.x.x

CI13XX系列芯片集成第三代BNPU具备较强的神经网络及向量并行运算能力,以及充足的RAM,能够完成一些常见的语音处理算法。主要包含了以下算法功能。使用者可以根据不同产品需求进行合适的选择。

  • ASR(语音识别-单麦克风,固定词条或者自然说)
  • CWSL(离线命令词自学习功能)
  • AEC(回声消除)
  • 声纹识别:包含 VPR(基于特定人的声纹识别)、 WMAN_VPR(男女声纹检测功能) 等;
  • 声音事件检测: SED_CRY(哭声检测功能)、 SED_SNORE(鼾声检测功能)、咳嗽声 等;
  • DENOISE_NN(基于神经网络的深度降噪功能)
  • DOA(双麦声源定位功能)
  • DERVERB(双麦降混响)
  • BF(双麦深度分离)
  • PWK(声音能量值值计算,区分目标声音距离)
  • ALC(自动增益控制)
  • TTS(文本转语音(只支持中文、数字、字母,不支持英文))

其中ASR功能可以和以上除TTS功能以外的其他功能进行1+1组合,如需多个算法组合请参照☞《算法SDK开发流程》


3. 语音通话降噪SDK :CI-SDK-NN-ENC

注意

SDK发布版本格式:CI13XX_SDK_NN_ENC_Vx.x.x

完善中…


4. 离在线大模型对话SDK :CI-SDK-LLM-AIOT

注意

SDK发布版本格式:CI13XX_SDK_LLM_AIOT_Vx.x.x

主要针对纯离在线大模型对话应用场景,例如AI玩具,AI医疗,车载等;支持离线自学习,回声消除(AEC),深度降噪,声源定位(DOA),VAD端点检测,SPEEX/OPUS/G722语音编解码算法;同时支持语音在线上传和播放功能

  • ASR(语音识别-单麦克风,固定词条或者自然说)
  • CWSL(离线命令词自学习功能)
  • AEC(回声消除)
  • DENOISE_NN(基于神经网络的深度降噪功能)
  • DOA(双麦声源定位功能)
  • SPEEX(采用 CELP 算法,在低码率下能保持清晰语音可懂度的音频编解码器)
  • OPUS(有损声音编码的格式,以语音编码为导向的SILK和低延迟的CELT)
  • G722(最早被广泛采用的宽带语音编码器之一,技术成熟稳定)
  • VAD(语音活性检测)

备注

各版本SDK可以到 ☞启英泰伦语音AI平台 开发资料板块中进行下载使用。