CMSIS-NN 介绍与使用

CMSIS-NN是ARM专为Cortex-M系列MCU优化的神经网络加速算子库，通过硬件级加速和定点数运算，可将AI模型推理速度提升4-5倍，内存占用降低50%以上。该库采用静态内存设计，支持INT8/INT16量化，完美适配低资源嵌入式场景。与TFLM框架配合使用时，既能简化开发流程又能提升性能。部署流程包括模型量化、权重提取、工程配置等步骤，特别适合工业控制、物联网终端等实时性要求高的应用场景

1998@逆风生长

18人浏览 · 2026-02-27 11:18:50

1998@逆风生长 · 2026-02-27 11:18:50 发布

嵌入式开发过程中，可能会遇到这种情况：训练好的轻量级AI模型，部署到Cortex-M系列MCU上后，推理速度慢到无法满足实时需求，甚至因内存不足直接崩溃，明明MCU的硬件算力没完全发挥，却被通用推理框架的原生算子“拖了后腿”。

ARM官方出品的“嵌入式AI性能神器”——CMSIS-NN。它不是独立的推理框架，却是Cortex-M MCU部署AI的“性能基石”，能让模型推理速度提升4~5倍，内存占用大幅降低，轻松解决嵌入式AI落地的核心痛点。本文将从基础介绍、核心架构、实战部署到避坑技巧，手把手教你上手CMSIS-NN，让你的嵌入式AI项目跑得更快、更稳。

一、CMSIS-NN 到底是什么？

在聊使用之前，我们先明确一个核心认知：CMSIS-NN 不是推理框架，而是一套专为Cortex-M内核MCU量身定制的神经网络硬件加速算子库。

它是ARM CMSIS（Cortex Microcontroller Software Interface Standard，Cortex微控制器软件接口标准）生态的重要组成部分，开源、免费、纯C实现，核心目标就是“挖掘Cortex-M内核的最大算力”——通过深度优化算子，适配Cortex-M4/M7/M33等内核的DSP指令集、FPU浮点单元，让AI模型在低资源MCU上实现“极致性能+最小资源占用”的平衡。

简单来说，如果你用的是STM32、GD32等基于Cortex-M内核的MCU，想要部署AI模型并提升推理性能，CMSIS-NN 就是你绕不开的工具。它就像给MCU的AI推理“开了硬件加速”，不用更换硬件，就能让模型跑得更快、更省内存。

二、 CMSIS-NN 核心特性

CMSIS-NN的所有设计，都围绕嵌入式设备的资源限制展开，这也是它能在低资源MCU上“封神”的关键。核心特性总结为5点。

1. 硬件级加速，性能直接拉满

这是CMSIS-NN最核心的优势。它的核心算子采用“汇编+C混合编程”，深度适配Cortex-M内核的DSP指令集（如SIMD单指令多数据）和FPU浮点单元，能最大限度利用MCU的硬件算力。

对比通用C实现的算子，CMSIS-NN的推理速度能提升4至5倍——比如一个简单的全连接模型，用原生C算子推理需要100ms，用CMSIS-NN优化后，仅需20~25ms，完全能满足工业控制、物联网终端等实时性需求。

2. 定点数优先，资源精打细算

嵌入式MCU的RAM和Flash资源极其宝贵，CMSIS-NN深谙这一点，核心算子仅支持INT8（q7）、INT16（q15）、INT32（q31）定点数运算，不支持浮点运算（浮点推理需依赖CMSIS-DSP）。

INT8量化能让模型体积减少75%，RAM占用降低50%以上——比如一个400KB的浮点模型，量化后仅需100KB，完美适配Flash＜1MB、RAM＜128KB的中低端MCU（如STM32F103、GD32F303）。

3. 静态内存设计，适配裸机环境

嵌入式裸机或轻量级RTOS环境中，动态内存（malloc/free）是“噩梦”——容易导致内存泄漏、内存碎片化，甚至让系统崩溃。CMSIS-NN全程采用静态内存分配，所有内存（输入/输出缓冲区、临时计算空间）都在编译时预先分配，彻底规避了动态内存的风险。

同时，它还支持中间张量的内存复用，比如一个临时缓冲区可以跨多个算子使用，进一步节省宝贵的RAM资源。

4. 极简C接口，易于集成

很多嵌入式开发者担心“加速库难集成”，但CMSIS-NN完全不用顾虑——它提供简洁的纯C接口，无需依赖C++运行时，可无缝集成到Keil MDK、STM32CubeIDE、VS Code等所有嵌入式开发环境。

而且它的耦合性极低，不依赖特定的推理框架：既可以和TFLM（TensorFlow Lite for Microcontrollers）结合使用（推荐），也可以独立部署（手动调用算子），灵活适配不同项目需求。

5. 开源免费，生态完善

CMSIS-NN完全开源，源码托管于GitHub，支持商业项目使用，无需支付任何费用。同时，它适配所有Cortex-M内核MCU，与STM32、GD32、NXP等厂商的固件库完美兼容，资料丰富，遇到问题能快速找到解决方案。

三、适用场景 & 局限性

CMSIS-NN虽好，但并非万能的，我们先明确它的适用场景和局限性，避免走弯路。

适用场景（精准匹配这些需求）

工业控制：伺服驱动器故障预测、电机振动分析、PLC边缘计算；
物联网终端：传感器数据（温度、湿度、加速度）异常检测、低功耗节点的AI推理；
消费电子：语音关键词识别、简单图像分类（如智能家居设备的手势识别）；
低资源场景：仅搭载Cortex-M4/M7内核，无操作系统或仅运行轻量级RTOS（如FreeRTOS）的裸机设备。

局限性

无模型解析能力：CMSIS-NN仅提供算子，无法直接解析TFLite、ONNX等模型文件，需手动编写算子调用代码，或依赖TFLM等框架完成模型解析；
算子覆盖有限：仅支持神经网络核心算子（卷积、池化、全连接、激活函数），不支持BatchNorm、Dropout、YOLO等复杂算子/模型；
依赖量化模型：必须使用INT8/INT16量化模型，若需浮点推理，需切换至CMSIS-DSP或其他框架。

四、关键认知：CMSIS-NN 与 TFLM 的关系（最佳搭档）

很多开发者会把CMSIS-NN和TFLM搞混，甚至觉得它们是竞争关系——其实不然，二者是最佳搭档，互补性极强，结合使用能实现“开发效率+性能”双提升。

组件	定位	核心作用	综合价值
TFLM	推理框架	模型解析、张量管理、流程控制	负责“统筹全局”，降低开发难度，不用手动写算子调用逻辑
CMSIS-NN	算子加速库	核心计算加速、硬件优化	负责“核心执行”，提升推理性能，让模型跑得更快、更省内存

简单来说：用TFLM负责“读模型、管张量”，用CMSIS-NN负责“做计算、提速度”，是Cortex-M MCU部署AI的最优方案。

五、实战部署

核心流程：PC端模型训练与量化 → 权重提取与格式转换 → Keil工程配置 → 算子调用代码编写 → 编译部署与验证

5.1 前置准备

软件环境

编译器：Keil MDK-ARM V5/V6（推荐ARMCC 6.18+）；
CMSIS源码：CMSIS_5 v5.8.0+（必须包含NN模块和DSP模块）；
模型工具：Python 3.8+、TensorFlow 2.15LTS（用于模型训练、量化）；
调试工具：J-Link/ST-Link（下载固件）、串口工具（查看推理结果）。

硬件资源

目标MCU；
外设：串口（输出推理结果）、ADC（采集伺服振动/电流数据，模拟故障输入）。

CMSIS源码获取

# 克隆CMSIS源码（稳定版本v5.8.0）
git clone https://github.com/ARM-software/CMSIS_5.git

核心目录说明（后续工程配置关键）：

CMSIS_5/
├── Core/Include/       # CMSIS-Core 头文件（适配Cortex-M内核）
├── DSP/                # CMSIS-DSP 库（NN依赖的基础数学运算）
│   ├── Include/        # DSP头文件
│   └── Source/         # DSP源码
└── NN/                 # CMSIS-NN核心库
    ├── Include/        # NN头文件（算子接口）
    └── Source/         # NN源码（优化后的算子实现）

5.2 关键步骤如下所示：

解析TFLite模型

interpreter = tf.lite.Interpreter(model_path="./model_int8.tflite")
interpreter.allocate_tensors()
tensor_details = interpreter.get_tensor_details()

提取量化参数（输入、输出、权重）

input_scale, input_zero = tensor_details[0]['quantization']
output_scale, output_zero = tensor_details[-1]['quantization']

提取权重和偏置（转换为INT8/INT32）

w1 = interpreter.get_tensor(tensor_details[1]['index']).astype(np.int8)  # 第一层权重 (16,32)
b1 = interpreter.get_tensor(tensor_details[2]['index']).astype(np.int32)  # 第一层偏置 (32,)
w2 = interpreter.get_tensor(tensor_details[3]['index']).astype(np.int8)  # 第二层权重 (32,3)
b2 = interpreter.get_tensor(tensor_details[4]['index']).astype(np.int32)  # 第二层偏置 (3,)

保存为C头文件（适配CMSIS-NN输入格式）

with open("./model_weights.h", "w") as f:
    f.write("#ifndef MODEL_WEIGHTS_H\n#define MODEL_WEIGHTS_H\n\n")
    f.write("#include <stdint.h>\n\n")

   # 量化参数
    f.write(f"#define INPUT_SCALE {input_scale:.6f}\n")
    f.write(f"#define INPUT_ZERO {input_zero}\n")
    f.write(f"#define OUTPUT_SCALE {output_scale:.6f}\n")
    f.write(f"#define OUTPUT_ZERO {output_zero}\n\n")
    
    # 权重和偏置（按CMSIS-NN要求，权重为一维数组，行优先）
    f.write("const int8_t w1[] = {")
    f.write(",".join(map(str, w1.flatten())))
    f.write("};\n\n")
    
    f.write("const int32_t b1[] = {")
    f.write(",".join(map(str, b1)))
    f.write("};\n\n")
    
    f.write("const int8_t w2[] = {")
    f.write(",".join(map(str, w2.flatten())))
    f.write("};\n\n")
    
    f.write("const int32_t b2[] = {")
    f.write(",".join(map(str, b2)))
    f.write("};\n\n")
    
    # 模型维度
    f.write("#define INPUT_DIM 16\n")
    f.write("#define HIDDEN_DIM 32\n")
    f.write("#define OUTPUT_DIM 3\n\n")
    f.write("#endif // MODEL_WEIGHTS_H\n")

生成的model_weights.h文件，包含了CMSIS-NN推理所需的所有核心数据，后续直接引入Keil工程即可。

5.3 Keil工程配置

5.3.1 新建Keil工程

打开Keil MDK，新建工程，选择目标MCU
选启动文件

5.3.2 添加文件分组

右键工程 → Manage Project Items，新建4个分组，添加对应文件（按需添加，避免冗余）：

分组名	需添加的文件
CMSIS-NN_Core	`CMSIS_5/NN/Source`下的核心算子（根据项目需要：FullyConnectedFunctions/.c、ActivationFunctions/.c、NNSupportFunctions/*.c）
CMSIS-DSP_Core	`CMSIS_5/DSP/Source`下的基础算子（BasicMathFunctions/.c、MatrixFunctions/.c）
Model_Weights	生成的`model_weights.h`
用户代码	`main.c`、MCU底层驱动（时钟、串口、ADC）

5.3.3 配置编译选项（核心：硬件适配）

右键Target 1 → Options for Target 'Target 1'（Alt+F7），按以下标签页配置：

Target标签：优化级别选择Size (-Os)（体积优先）或Level 2 (-O2)（性能优先）；Runtime Library选择MicroLIB（嵌入式轻量级库，必选）；ARM Compiler选择ARM Compiler 6.18+。
C/C++标签：
- Define（必须添加）：GD32F460;ARM_MATH_CM4;__CMSIS_NN__;NDEBUG;__FPU_PRESENT=1
- Include Paths（添加头文件路径）：./CMSIS_5/Core/Include、./CMSIS_5/DSP/Include、./CMSIS_5/NN/Include、./User_Code/Inc
- Misc Controls（编译参数）：--cpu Cortex-M4.fp.sp -ffunction-sections -fdata-sections -std=c99
Linker标签：勾选Remove unused sections（裁剪无用代码）

5.4 编写CMSIS-NN推理代码（核心）

本项目为全连接模型，核心调用arm_fully_connected_q7()（全连接算子）和arm_relu_q7()（ReLU激活算子），代码包含硬件初始化、数据量化、算子调用、结果解析，可直接复制使用。

// 关键代码
#include "stdio.h"
#include "arm_nnfunctions.h"  // CMSIS-NN核心头文件
#include "arm_math.h"         // CMSIS-DSP头文件
#include "model_weights.h"    // 模型权重与量化参数

// 全局常量（静态内存，嵌入式必备）
const uint32_t SAMPLE_RATE = 100;  // 数据采集频率
const float INPUT_SCALE_F = INPUT_SCALE;
const int8_t INPUT_ZERO_I8 = INPUT_ZERO;

// 静态内存缓冲区（CMSIS-NN要求，避免动态分配）
int8_t input_data[INPUT_DIM];        // 模型输入（INT8）
int8_t hidden_out[HIDDEN_DIM];       // 隐藏层输出（INT8）
int8_t output_data[OUTPUT_DIM];      // 模型输出（INT8）
int32_t scratch_buffer[HIDDEN_DIM];  // 临时计算缓冲区（全连接算子必需）

// 模拟采集数据并量化为INT8（实际项目替换为ADC采集）
void collect_and_quantify_data(void) {
    // 模拟16维特征（实际为ADC采样值）
    float raw_data[INPUT_DIM] = {
        0.12f, 0.35f, 0.21f, 0.48f, 0.09f, 0.18f, 0.32f, 0.41f,
        0.27f, 0.05f, 0.15f, 0.39f, 0.45f, 0.22f, 0.11f, 0.08f
    };
    
    // 量化：float -> INT8（公式：int8 = round(float / scale) + zero_point）
    for (int i = 0; i < INPUT_DIM; i++) {
        input_data[i] = (int8_t)round(raw_data[i] / INPUT_SCALE_F) + INPUT_ZERO_I8;
        // 裁剪到INT8范围 [-128, 127]
        if (input_data[i] > 127) input_data[i] = 127;
        if (input_data[i] < -128) input_data[i] = -128;
    }
}

// CMSIS-NN推理核心函数
void cmsis_nn_infer(void) {
    // 量化参数配置（CMSIS-NN全连接算子必需）
    const arm_nn_weights wt1 = {w1, INPUT_DIM};  // 第一层权重：数据+列数
    const arm_nn_bias bs1 = {b1};                // 第一层偏置
    const arm_nn_weights wt2 = {w2, HIDDEN_DIM}; // 第二层权重
    const arm_nn_bias bs2 = {b2};                // 第二层偏置

    // 层1：全连接（16 -> 32） + ReLU激活
    arm_fully_connected_q7(
        input_data,        // 输入数据（INT8）
        wt1,               // 权重
        INPUT_DIM,         // 输入维度
        HIDDEN_DIM,        // 输出维度
        1,                 // 权重移位（量化参数，本项目为1）
        bs1,               // 偏置
        hidden_out,        // 输出数据
        scratch_buffer     // 临时缓冲区
    );
    arm_relu_q7(hidden_out, HIDDEN_DIM);  // ReLU激活

    // 层2：全连接（32 -> 3） + 取最大值（替代Softmax，简化计算）
    arm_fully_connected_q7(
        hidden_out,        // 输入数据（隐藏层输出）
        wt2,               // 权重
        HIDDEN_DIM,        // 输入维度
        OUTPUT_DIM,        // 输出维度
        1,                 // 权重移位
        bs2,               // 偏置
        output_data,       // 输出数据（故障分类结果）
        scratch_buffer     // 临时缓冲区（复用，节省内存）
    );
}

// 解析推理结果，输出故障类型
void parse_result(void) {
    // 取最大值作为预测标签（替代Softmax，简化计算）
    int8_t max_val = output_data[0];
    int pred_label = 0;
    for (int i = 1; i < OUTPUT_DIM; i++) {
        if (output_data[i] > max_val) {
            max_val = output_data[i];
            pred_label = i;
        }
    }
}

int main(void) {
    // 1. 硬件初始化
  
    while (1) {
        // 2. 采集并量化数据（ADC采集数据）
        collect_and_quantify_data();
        // 3. 执行CMSIS-NN推理（核心：硬件加速算子）
        cmsis_nn_infer();
        // 4. 解析并输出结果
        parse_result();
        // 5. 延时1秒，循环检测
        for (uint32_t i = 0; i < 1000000; i++);
    }
}

六、高频避坑指南

嵌入式开发中，CMSIS-NN的使用容易遇到内存、算子、硬件适配等问题，整理了4个高频坑点，附解决方案，可对照排查：

问题	核心原因	解决方案
编译报错 `undefined reference to arm_xxx_q7`	未添加对应算子的.c源码	检查CMSIS-NN分组，添加缺失的算子源码（按需添加，不要冗余）
推理结果错误	量化参数错误、权重维度不匹配	核对模型导出的量化参数（scale/zero），确认权重是行优先存储
硬件运行崩溃	FPU未启用、编译参数与MCU不匹配	启动文件中开启FPU，核对`--cpu`参数（如Cortex-M4对应`Cortex-M4.fp.sp`）
内存不足	缓冲区尺寸过小、未启用内存复用	增大缓冲区，跨层复用临时内存，将权重放入Flash（用`__attribute__((section(".FLASH")))`修饰）

七、进阶技巧：让CMSIS-NN性能再提升一个档次

如果想进一步挖掘CMSIS-NN的性能，分享4个实用进阶技巧，适用于工业级项目：

与TFLM结合使用（推荐）：简单模型可手动调用算子，复杂模型（如CNN）建议结合TFLM；
内存复用最大化：临时缓冲区可跨层复用（如本项目中scratch_buffer同时用于两层全连接计算），只需保证缓冲区大小不小于算子所需最小尺寸；
使用快速算子版本：CMSIS-NN提供_fast后缀的算子（如arm_depthwise_conv_q7_fast()），牺牲少量精度（可忽略），换取20%~30%的性能提升；
权重放入Flash：模型权重是只读数据，通过__attribute__((section(".FLASH")))修饰权重数组，将其存储在Flash中，避免占用宝贵的RAM。

八、总结

对于Cortex-M系列MCU的嵌入式AI项目来说，CMSIS-NN 不是“可选工具”，而是“必选工具”——它无需更换硬件，仅通过算子优化，就能让AI模型的推理速度提升4~5倍，内存占用大幅降低，完美解决低资源MCU上AI部署的性能痛点。

CMSIS-NN的核心价值是“硬件加速”，它不替代TFLM等推理框架，而是与它们结合，实现“开发效率+性能”的双提升。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Java SpringBoot+Vue3+MyBatis 线上医院挂号系统系统源码｜前后端分离+MySQL数据库

2048 AI社区

多Agent协作框架洞察

多Agent协作框架作为AI技术从“单一能力”向“协同能力”演进的核心载体，已成为解锁复杂业务场景、提升企业数字化转型效率的关键工具。当前，主流框架各有侧重，AutoGen适合通用场景，LangGraph适合复杂流程场景，MetaGPT适合结构化流程协同，CrewAI适合快速落地，ChatDev适合软件开发场景，大家可根据自身业务需求、技术实力选择合适的框架。