端侧AI：谁在定义下一代AI MCU？MCU厂商路线图深度解读

重点内容速览：

1. AI MCU 是如何进化的？

2. AI MCU 的四大技术路线

3. 中国 MCU 厂商的机会在哪里？

过去几年，全球半导体产业最热门的话题几乎都是围绕AI展开的。从GPU到AI服务器，从AI PC到AI手机，市场的关注焦点主要集中在高算力芯片。但如果仔细观察产业变化，你会发现另一场变革也正在悄然发生。那就是，AI正在进入MCU。

一辆新能源汽车可能搭载100至300颗MCU；一台工业机器人会用到几十颗MCU；未来的人形机器人，其关节控制、传感器融合、电池管理等等，将会需要上百颗MCU；另外，工业传感器、电机控制器、智能家电、烟感器、智能门锁、电表等大部分的终端设备，普遍采用MCU作为核心控制器。而且，从数量上来看，MCU是全球出货量最大的芯片品类之一。据多家市场调研机构统计，MCU的近几年的出货量均在300亿颗以上。

Image of Introduction to Edge AI Devices — 图：边缘 AI 设备介绍（来源：村田）

如今，AI能力下沉到端侧设备、TinyML、小型语言模型（SLM）、量化模型的出现，越来越多AI任务能够在资源受限的硬件平台上运行。再加上终端设备对实时性和隐私保护的要求越来越高。AI开始从边缘SoC进一步向MCU迁移。

对MCU厂商来说，这既是一次技术升级，也是新的市场机会。

AI MCU 是如何进化的？

从技术角度来看，AI MCU并不是突然出现的。它经历了一个逐步演进的过程。随着计算架构、存储技术和开发工具链的不断革新。

第一阶段：纯软件推理（2017年-2020年）。这个阶段的AI MCU主要依赖软件实现AI功能。开发者可以通过TensorFlow Lite Micro等框架，将经过压缩的神经网络模型部署到Cortex-M4/M7等内核的MCU上运行。典型的代表是STM32H7、GD32H7等高性能MCU。

这一阶段的最大优势是成本低，但缺点也很明显，就是CPU占用率高、推理速度慢、功耗高、模型规模有限。据当时的评测数据，一个关键词检测模型跑完一次推理需要数百毫秒，勉强可用，谈不上实用。

第二阶段：DSP和SIMD加速（2020-2022年）。为了提升AI计算效率，厂商开始强化DSP能力。例如兆易创新的GD32G5系列在Cortex-M33基础上加入了DSP硬件加速单元。

另外，Arm引入Helium技术，Cortex-M55开始支持SIMD向量指令，DSP运算性能大幅提升。典型代表产品包括Silicon Labs xG24，以及后来的极海G32R501和新唐科技的M55M1系列产品。

这条路线不需要额外的NPU硬件，成本增量小。缺点是推理吞吐量依然受限于通用CPU的串行计算模式。

第三阶段：异构架构+专用NPU（2022年-至今）。真正的转折点出现在NPU进入MCU。2022年开始陆续有厂商推出了采用异构架构与专用NPU的MCU产品，使AI计算从CPU中解放出来。CPU负责逻辑控制，NPU专门处理神经网络矩阵运算，二者并行执行，互不干扰。

这是当前主流国际厂商的选择，也是AI MCU真正意义上的“质变”节点。STM32N6、NXP i.MX RT700、英飞凌PSoC Edge E83/E84、瑞萨RA8P1等产品均属于此类。

第四阶段：MCU向SLM演进（2025年及以后）。Arm Ethos-U85已经开始支持Transformer算子，并在2024年底演示了在MCU上运行小型语言模型（SLM）的效果。这也意味着，AI MCU的上限正在快速拉高，从音频关键词检测，到视觉目标识别，再到本地轻量化对话推理等等，边界仍在持续扩展。

当然，AI MCU的普及离不开易用、高效的AI部署工具链。这包括模型量化、剪枝、编译优化、运行时库以及与主流AI框架（如TensorFlow Lite Micro）的兼容性。例如，ST的Edge AI、NXP的eIQ和TI的TinyEngine等，都旨在简化AI模型在MCU上的部署流程，降低开发门槛，让更多嵌入式工程师能够利用AI能力。

AI MCU的四大技术路线随着AI能力逐步进入MCU，不同厂商也选择了不同的发展路径。这些多元化的技术路线，各具特色，共同推动着端侧AI的发展。从目前的市场格局来看，大致可以分为四条技术路线，分别是Arm Ethos、自研NPU、DSP增强，以及RISC-V加AI路线。

Arm Ethos：国际厂商的主流选择

对于大多数MCU厂商而言，自研NPU并非易事。因此，采用Arm Cortex-M处理器，搭配Arm Ethos-U系列NPU，成为目前最成熟，风险最低的方案。

这一阵营的代表厂商包括英飞凌、瑞萨和新唐科技。

英飞凌PSoC Edge E83/E84是这条路线的标杆产品。E83/E84搭载Cortex-M55处理器，并集成Arm Ethos-U55 NPU，同时结合其NNLite低功耗神经网络加速器，面向始终在线（Always-On）场景下的语音唤醒和环境感知等持续推理任务。英飞凌还在2025年宣布支持NVIDIA TAO模型微调工具链，大幅降低视觉AI模型的定制门槛。

瑞萨RA8P1则将这一思路进一步推向高性能方向。该产品采用1GHz Cortex-M85和250MHz Cortex-M33双核架构，并集成Ethos-U55 NPU，标称AI性能达256GOPS。重点布局预测性维护和安全敏感的AIoT场景。

新唐科技的NuMicro M55M1同样走的是Cortex-M55与Ethos-U55组合。并提供专为TinyML设计的NuEdge Wise IDE，支持从数据标记、模型训练到芯片部署的完整闭环，已经在人脸特征点检测、手势识别等应用上实现量产方案。主要面向工业控制、智能家居和边缘视觉应用。

这一路线的最大优势是IP成熟、开发工具完善，开发者可以直接使用Arm提供的软件工具链和模型转换工具，大幅降低AI开发门槛。但其局限也比较明显，对Arm生态依赖较强，产品同质化趋势明显，难以形成差异化竞争优势。

因此，越来越多的MCU厂商开始尝试第二条路线。

自研NPU：差异化与垂直优化

与采用标准IP不同，一些国际MCU厂商选择开发自有NPU架构，以实现更深度的软硬件协同优化，打造具有独特竞争力的AI MCU产品。这一路线通常能提供更高的算力密度和更优的能效比，但对厂商的研发实力要求较高。

最具代表性的产品是ST的STM32N6，它是STM32家族首款AI MCU，集成了ST自研的Neural-ART Accelerator神经网络加速器（NPU），同时引入了Arm Helium向量技术，可实现600GOPS的AI推理能力。

另一家代表企业是NXP，其i.MX RT700跨界MCU集成自研eIQ Neutron NPU，并采用双Cortex-M33、DSP和协处理器组成的异构架构。重点面向AR眼镜、可穿戴、智能家居HMI等场景。

TI则走出了另一种风格。在实时控制领域，TI在TMS320F28P55x系列MCU中集成了其自研的TinyEngine NPU，用于电弧故障检测、电机状态分析等实时AI应用。2026年初，TI又进一步将TinyEngine下沉到低成本MCU平台，推出了集成NPU的MCU产品MSPM0G5187，面向成本敏感型边缘AI应用。

与Arm Ethos路线相比，自研NPU路线的优势在于架构可以深度优化，厂商可以根据自身在特定应用领域的积累，设计出最适合其产品线的NPU架构，从而在性能、功耗和成本之间取得最佳平衡。这也有助于构建更完整的软硬件一体化解决方案。但这同时也意味着，需要更高的研发投入和更长的生态建设周期。

DSP 增强：兼顾成本与灵活性

如果说前面两条路代表未来，那么DSP增强路线则代表当下。事实上，目前绝大多数的MCU并没有真正集成NPU。对于许多应用而言，通过提升CPU性能、增加DSP单元，以及引入向量计算能力，是可以满足当前的部分AI需求的。

极海半导体的G32R501是这条路线中的一个典型代表，它采用了Arm Cortex-M52双核架构的实时控制MCU/DSP，并支持Helium向量扩展技术。在信号处理和AI推理效率方面较传统MCU有明显提升。极海半导体将其定位为具身机器人关节控制的核心芯片，面向伺服控制器、逆变器、机器人等场景。

兆易创新的GD32H7/GD32G5则代表了国产通用MCU厂商的主流做法。GD32H7采用 600MHz Cortex-M7，GD32G5采用216MHz Cortex-M33，均内置高级DSP硬件加速器、单精度浮点单元和三角函数/滤波算法加速器，同时搭建Embedded AI平台，支持将主流模型部署到GD32 MCU，并提供基于Sensory平台的语音识别参考方案。

乐鑫科技则从无线连接切入AI MCU市场。其ESP32-P4采用双核RISC-V架构，加上自研 Processor Instruction Extensions（PIE）用于加速AI和DSP算法，配合乐鑫提供的ESP-NN深度学习加速库，支持语音唤醒、人脸识别等AIoT应用。另外，乐鑫ESP32-S3带AI加速指令的AIoT芯片出货量增长迅速，已被字节跳动AI玩具"显眼包"等产品采用，是消费级AIoT芯片里商业化落地最快的案例之一。

还有，Silicon Labs xG24的MVP加速器也属于这一类别，在超低功耗IoT场景（电池驱动的异常检测、手势识别、音频分类）中表现突出。

从商业角度来看，这条路线最符合当前中国MCU产业的发展现实。因为它的优势在于成本效益和灵活性。厂商不需要投入巨额资源开发NPU，只需要通过软件优化和指令集扩展，就能在不大幅增加硬件成本的情况下提升AI性能，特别适合对语音、图像等信号处理有较高要求的应用。

RISC-V加AI：中国厂商的新机会

除了Arm生态之外，RISC-V正在成为另一股重要力量。在AI MCU领域，中国企业正试图借助RISC-V实现差异化突破。

芯来科技是其中的重要推动者。其推出的NI900处理器支持宽向量扩展，并针对AI应用进行优化。同时，2025年7月，芯来科技正式推出NACC（Nuclei Neural-Network Accelerator）端侧AI加速器IP，面向边缘AI传感器、智能感知等场景，已在多个客户项目实现落地，完整软件栈覆盖TFLite Micro及自研Nuclei AI SDK，并提供CPU+NACC+DMA+总线的整体子系统集成服务。目前芯来科技已有超过250家正式授权客户，IP遍及AI、汽车电子、5G、工业控制等多个领域。

国芯科技则更进一步。其CCR4001S集成AI加速能力，面向空调控制、电力检测和工业设备等场景。CCR7002则采用RISC-V处理器与AI子系统的多芯片封装方案，进一步提升AI处理能力。

对中国厂商而言，RISC-V最大的吸引力在于开放性。相比Arm授权模式，RISC-V能够提供更大的自主可控空间。不过，目前这一生态仍处于发展阶段，软件工具链、模型部署框架，以及开发者生态仍需持续完善。

中国MCU厂商的机会在哪里？

从目前竞争格局来看，中国MCU厂商短期内不太会走自研NPU架构的路线，因为打造一颗高性能AI MCU不仅需要先进工艺和NPU设计能力，更需要长期的软件生态积累。而这些并不是短时间能够完成的事情。

因此，国内MCU厂商可以采取循序渐进的发展路径。第一步采用DSP增强，例如兆易创新和极海半导体现在正在推进的；第二步是采用RISC-V AI MCU；第三步是推出行业专用AI MCU，例如智能空调控制、电机预测性维护、工业故障检测、能源管理系统等。相比通用AI MCU，这类产品更容易形成差异化竞争优势。

例如在工业控制的垂直场景中，电机驱动、逆变器控制、变频器PID调节等，这些实时控制场景对AI的需求是“小而精”，因为这些应用不需要跑图像分类大模型，而是需要将自适应控制算法和故障预测集成进实时控制环路。极海半导体的G32R501和兆易创新的GD32H7系列就是此类。未来，国内MCU厂商在这些特定领域积累了一定经验后，可以进一步探索集成NPU的自研路线。

或许有人会认为，国内MCU厂商也应该推出像STM32N6那样具有NPU的MCU产品，其实未必。因为STM32N6之类的AI MCU主要面向视觉AI、边缘推理等应用场景，而国内MCU厂商最有优势的市场在工业控制、家电、电机控制、新能源等，这些场景更需要实时控制AI。因此，未来国产AI MCU更可能先诞生于逆变器、储能、BMS、机器人关节、工业控制器等场景，而不是智能摄像机。

总之，中国厂商的机会在于发挥本土优势，深耕细分市场，并积极拥抱RISC-V等开放架构，通过软硬件协同创新，打造具有差异化竞争力的AI MCU产品。

结语

AI MCU的崛起，不仅是微控制器产业的一次重大升级，更是端侧AI普及的关键一步。从Arm Ethos的标准化路径，到自研NPU的差异化竞争，再到DSP增强的灵活策略和RISC-V的定制化潜力，全球厂商正以前所未有的热情投入这场技术竞赛。中国厂商凭借其独特的市场优势和技术积累，有望在全球AI MCU版图中占据重要一席。而机器人等新兴市场的爆发，更将为AI MCU带来广阔的增长空间。