能在MCU上運行的語音算法方案——AID.Speech

山蟹居 2019-06-12

展開全文

AID.Speech是以Tengine-Lite為平臺的嵌入式前端語音喚醒/打斷算法，它可以在Arm Cortex-M4上流暢運行，適用于各種語音交互的IoT場景；包含，行業(yè)領先的語音識別算法；優(yōu)秀的單麥本地語音解決方案，具體有語音降噪算法，語音活性檢測算法，聲學回聲消除算法等。

▼▼▼

Tengine-Lite 簡介

Tengine-Lite是專為MCU場景設計的超輕量級AI推理框架，提供有史以來最佳的MCU AI應用開發(fā)體驗。

Tengine-Lite向上兼容Arm中國周易Tengine應用接口，支持Caffe/MXNet/TensorFlow模型，采用程序與模型分離的開發(fā)流程，支持常見RTOS操作系統(tǒng)和Bare-metal運行環(huán)境，支持Keil/IAR等主流開發(fā)環(huán)境，大幅度提高MCU AI應用開發(fā)效率。

同時為了滿足超低成本的部署需求，Tengine-Lite采用純C語言開發(fā)，最小程序體積20K。此外Tengine-Lite針對Arm Cortex-M CPU提供HCL-M計算庫，支持FP32/INT8計算精度，兼容CMSIS-NN，同時支持調用DSP和AI硬件加速器進行異構計算，賦能MCU+AI加速器芯片。

同時AID.Speech提供友好、簡潔、通用的API，可以快速部署到目標硬件平臺，加速語音識別終端快速產(chǎn)品化落地；默認支持FreeRTOS/Zephyr操作系統(tǒng)，經(jīng)過簡單修改就適配其他操作系統(tǒng)；提供喚醒詞的定制以及在特定產(chǎn)品上的效果調優(yōu)服務。

語音識別算法流程

語音識別需要經(jīng)過聲學回聲消除、語音降噪、自動增益控制、聲學特征提取、語音識別等多個步驟，通過使用Tengine-Lite/HCL-M大大提升了現(xiàn)有嵌入式SoC的算力，使得語音識別系統(tǒng)可部署在各類種嵌入式設備上，并提供超預期的識別用戶體驗。

AID.Speech產(chǎn)品特性

1 使用Tengine Lite，極快的識別速度；

2 針對于不同CPU指令集、微架構級別優(yōu)化，以及DSP/NPU的異構計算支持；

3 識別本地化，支持完全離線工作模式；

4 基于深度學習算法，超小模型，對內(nèi)存容量要求低；

5 抗噪聲能力強；

6 支持FreeRTOS/Zephyr等多種RTOS系統(tǒng)；

AID.Speech產(chǎn)品性能

AID.Speech采用多種語音前處理算法，在極大地抑制噪聲的同時，適當?shù)卦鰪娬Z音信號；采用回聲消除算法，從輸入語音中消除設備自身播放的影響，賦予設備全雙工的能力。語音識別模型大小可以根據(jù)需要在50~350KB內(nèi)自由選擇，在保證誤喚醒率<3次/天的條件下，識別率高達95%。

Cortex-M4上的性能數(shù)據(jù)