端侧AI:谁在定义下一代AI MCU?MCU厂商路线图深度解读

来源: 芯查查资讯 作者:程文智 2026-06-08 09:47:19

重点内容速览:

1. AI MCU 是如何进化的?

2. AI MCU 的四大技术路线

3. 中国 MCU 厂商的机会在哪里?
 

过去几年,全球半导体产业最热门的话题几乎都是围绕AI展开的。从GPU到AI服务器,从AI PC到AI手机,市场的关注焦点主要集中在高算力芯片。但如果仔细观察产业变化,你会发现另一场变革也正在悄然发生。那就是,AI正在进入MCU。

  
一辆新能源汽车可能搭载100至300颗MCU;一台工业机器人会用到几十颗MCU;未来的人形机器人,其关节控制、传感器融合、电池管理等等,将会需要上百颗MCU;另外,工业传感器、电机控制器、智能家电、烟感器、智能门锁、电表等大部分的终端设备,普遍采用MCU作为核心控制器。而且,从数量上来看,MCU是全球出货量最大的芯片品类之一。据多家市场调研机构统计,MCU的近几年的出货量均在300亿颗以上。

Image of Introduction to Edge AI Devices
图:边缘 AI 设备介绍(来源:村田)

如今,AI能力下沉到端侧设备、TinyML、小型语言模型(SLM)、量化模型的出现,越来越多AI任务能够在资源受限的硬件平台上运行。再加上终端设备对实时性和隐私保护的要求越来越高。AI开始从边缘SoC进一步向MCU迁移。

  
对MCU厂商来说,这既是一次技术升级,也是新的市场机会。

AI MCU 是如何进化的?

从技术角度来看,AI MCU并不是突然出现的。它经历了一个逐步演进的过程。随着计算架构、存储技术和开发工具链的不断革新。

  
第一阶段:纯软件推理(2017年-2020年)。这个阶段的AI MCU主要依赖软件实现AI功能。开发者可以通过TensorFlow Lite Micro等框架,将经过压缩的神经网络模型部署到Cortex-M4/M7等内核的MCU上运行。典型的代表是STM32H7、GD32H7等高性能MCU。

  
这一阶段的最大优势是成本低,但缺点也很明显,就是CPU占用率高、推理速度慢、功耗高、模型规模有限。据当时的评测数据,一个关键词检测模型跑完一次推理需要数百毫秒,勉强可用,谈不上实用。

  
第二阶段:DSP和SIMD加速(2020-2022年)。为了提升AI计算效率,厂商开始强化DSP能力。例如兆易创新的GD32G5系列在Cortex-M33基础上加入了DSP硬件加速单元。

 

另外,Arm引入Helium技术,Cortex-M55开始支持SIMD向量指令,DSP运算性能大幅提升。典型代表产品包括Silicon Labs xG24,以及后来的极海G32R501和新唐科技的M55M1系列产品。

  
这条路线不需要额外的NPU硬件,成本增量小。缺点是推理吞吐量依然受限于通用CPU的串行计算模式。

  
第三阶段:异构架构+专用NPU(2022年-至今)。真正的转折点出现在NPU进入MCU。2022年开始陆续有厂商推出了采用异构架构与专用NPU的MCU产品,使AI计算从CPU中解放出来。CPU负责逻辑控制,NPU专门处理神经网络矩阵运算,二者并行执行,互不干扰。

  
这是当前主流国际厂商的选择,也是AI MCU真正意义上的“质变”节点。STM32N6、NXP i.MX RT700、英飞凌PSoC Edge E83/E84、瑞萨RA8P1等产品均属于此类。

  
第四阶段:MCU向SLM演进(2025年及以后)。Arm Ethos-U85已经开始支持Transformer算子,并在2024年底演示了在MCU上运行小型语言模型(SLM)的效果。这也意味着,AI MCU的上限正在快速拉高,从音频关键词检测,到视觉目标识别,再到本地轻量化对话推理等等,边界仍在持续扩展。

  
当然,AI MCU的普及离不开易用、高效的AI部署工具链。这包括模型量化、剪枝、编译优化、运行时库以及与主流AI框架(如TensorFlow Lite Micro)的兼容性。例如,ST的Edge AI、NXP的eIQ和TI的TinyEngine等,都旨在简化AI模型在MCU上的部署流程,降低开发门槛,让更多嵌入式工程师能够利用AI能力。


 AI MCU的四大技术路线随着AI能力逐步进入MCU,不同厂商也选择了不同的发展路径。这些多元化的技术路线,各具特色,共同推动着端侧AI的发展。从目前的市场格局来看,大致可以分为四条技术路线,分别是Arm Ethos、自研NPU、DSP增强,以及RISC-V加AI路线。

Arm Ethos:国际厂商的主流选择

对于大多数MCU厂商而言,自研NPU并非易事。因此,采用Arm Cortex-M处理器,搭配Arm Ethos-U系列NPU,成为目前最成熟,风险最低的方案。

  
这一阵营的代表厂商包括英飞凌、瑞萨和新唐科技。

 

英飞凌PSoC Edge E83/E84是这条路线的标杆产品。E83/E84搭载Cortex-M55处理器,并集成Arm Ethos-U55 NPU,同时结合其NNLite低功耗神经网络加速器,面向始终在线(Always-On)场景下的语音唤醒和环境感知等持续推理任务。英飞凌还在2025年宣布支持NVIDIA TAO模型微调工具链,大幅降低视觉AI模型的定制门槛。

 

瑞萨RA8P1则将这一思路进一步推向高性能方向。该产品采用1GHz Cortex-M85和250MHz Cortex-M33双核架构,并集成Ethos-U55 NPU,标称AI性能达256GOPS。重点布局预测性维护和安全敏感的AIoT场景。

  

新唐科技的NuMicro M55M1同样走的是Cortex-M55与Ethos-U55组合。并提供专为TinyML设计的NuEdge Wise IDE,支持从数据标记、模型训练到芯片部署的完整闭环,已经在人脸特征点检测、手势识别等应用上实现量产方案。主要面向工业控制、智能家居和边缘视觉应用。

  
这一路线的最大优势是IP成熟、开发工具完善,开发者可以直接使用Arm提供的软件工具链和模型转换工具,大幅降低AI开发门槛。但其局限也比较明显,对Arm生态依赖较强,产品同质化趋势明显,难以形成差异化竞争优势。
 

因此,越来越多的MCU厂商开始尝试第二条路线。

自研NPU:差异化与垂直优化

与采用标准IP不同,一些国际MCU厂商选择开发自有NPU架构,以实现更深度的软硬件协同优化,打造具有独特竞争力的AI MCU产品。这一路线通常能提供更高的算力密度和更优的能效比,但对厂商的研发实力要求较高。

  
最具代表性的产品是ST的STM32N6,它是STM32家族首款AI MCU,集成了ST自研的Neural-ART Accelerator神经网络加速器(NPU),同时引入了Arm Helium向量技术,可实现600GOPS的AI推理能力。

  
另一家代表企业是NXP,其i.MX RT700跨界MCU集成自研eIQ Neutron NPU,并采用双Cortex-M33、DSP和协处理器组成的异构架构。重点面向AR眼镜、可穿戴、智能家居HMI等场景。

  
TI则走出了另一种风格。在实时控制领域,TI在TMS320F28P55x系列MCU中集成了其自研的TinyEngine NPU,用于电弧故障检测、电机状态分析等实时AI应用。2026年初,TI又进一步将TinyEngine下沉到低成本MCU平台,推出了集成NPU的MCU产品MSPM0G5187,面向成本敏感型边缘AI应用。

  
与Arm Ethos路线相比,自研NPU路线的优势在于架构可以深度优化,厂商可以根据自身在特定应用领域的积累,设计出最适合其产品线的NPU架构,从而在性能、功耗和成本之间取得最佳平衡。这也有助于构建更完整的软硬件一体化解决方案。但这同时也意味着,需要更高的研发投入和更长的生态建设周期。

DSP 增强:兼顾成本与灵活性

如果说前面两条路代表未来,那么DSP增强路线则代表当下。事实上,目前绝大多数的MCU并没有真正集成NPU。对于许多应用而言,通过提升CPU性能、增加DSP单元,以及引入向量计算能力,是可以满足当前的部分AI需求的。

  
极海半导体的G32R501是这条路线中的一个典型代表,它采用了Arm Cortex-M52双核架构的实时控制MCU/DSP,并支持Helium向量扩展技术。在信号处理和AI推理效率方面较传统MCU有明显提升。极海半导体将其定位为具身机器人关节控制的核心芯片,面向伺服控制器、逆变器、机器人等场景。

  
兆易创新的GD32H7/GD32G5则代表了国产通用MCU厂商的主流做法。GD32H7采用 600MHz Cortex-M7,GD32G5采用216MHz Cortex-M33,均内置高级DSP硬件加速器、单精度浮点单元和三角函数/滤波算法加速器,同时搭建Embedded AI平台,支持将主流模型部署到GD32 MCU,并提供基于Sensory平台的语音识别参考方案。

  
乐鑫科技则从无线连接切入AI MCU市场。其ESP32-P4采用双核RISC-V架构,加上自研 Processor Instruction Extensions(PIE)用于加速AI和DSP算法,配合乐鑫提供的ESP-NN深度学习加速库,支持语音唤醒、人脸识别等AIoT应用。另外,乐鑫ESP32-S3带AI加速指令的AIoT芯片出货量增长迅速,已被字节跳动AI玩具"显眼包"等产品采用,是消费级AIoT芯片里商业化落地最快的案例之一。

  
还有,Silicon Labs xG24的MVP加速器也属于这一类别,在超低功耗IoT场景(电池驱动的异常检测、手势识别、音频分类)中表现突出。

  
从商业角度来看,这条路线最符合当前中国MCU产业的发展现实。因为它的优势在于成本效益和灵活性。厂商不需要投入巨额资源开发NPU,只需要通过软件优化和指令集扩展,就能在不大幅增加硬件成本的情况下提升AI性能,特别适合对语音、图像等信号处理有较高要求的应用。

RISC-V加AI:中国厂商的新机会

除了Arm生态之外,RISC-V正在成为另一股重要力量。在AI MCU领域,中国企业正试图借助RISC-V实现差异化突破。

  
芯来科技是其中的重要推动者。其推出的NI900处理器支持宽向量扩展,并针对AI应用进行优化。同时,2025年7月,芯来科技正式推出NACC(Nuclei Neural-Network Accelerator)端侧AI加速器IP,面向边缘AI传感器、智能感知等场景,已在多个客户项目实现落地,完整软件栈覆盖TFLite Micro及自研Nuclei AI SDK,并提供CPU+NACC+DMA+总线的整体子系统集成服务。目前芯来科技已有超过250家正式授权客户,IP遍及AI、汽车电子、5G、工业控制等多个领域。

  
国芯科技则更进一步。其CCR4001S集成AI加速能力,面向空调控制、电力检测和工业设备等场景。CCR7002则采用RISC-V处理器与AI子系统的多芯片封装方案,进一步提升AI处理能力。

  
对中国厂商而言,RISC-V最大的吸引力在于开放性。相比Arm授权模式,RISC-V能够提供更大的自主可控空间。不过,目前这一生态仍处于发展阶段,软件工具链、模型部署框架,以及开发者生态仍需持续完善。

图:AI MCU 四大技术路线对比(来源:芯查查)

中国MCU厂商的机会在哪里?

从目前竞争格局来看,中国MCU厂商短期内不太会走自研NPU架构的路线,因为打造一颗高性能AI MCU不仅需要先进工艺和NPU设计能力,更需要长期的软件生态积累。而这些并不是短时间能够完成的事情。

  
因此,国内MCU厂商可以采取循序渐进的发展路径。第一步采用DSP增强,例如兆易创新和极海半导体现在正在推进的;第二步是采用RISC-V AI MCU;第三步是推出行业专用AI MCU,例如智能空调控制、电机预测性维护、工业故障检测、能源管理系统等。相比通用AI MCU,这类产品更容易形成差异化竞争优势。

  
例如在工业控制的垂直场景中,电机驱动、逆变器控制、变频器PID调节等,这些实时控制场景对AI的需求是“小而精”,因为这些应用不需要跑图像分类大模型,而是需要将自适应控制算法和故障预测集成进实时控制环路。极海半导体的G32R501和兆易创新的GD32H7系列就是此类。未来,国内MCU厂商在这些特定领域积累了一定经验后,可以进一步探索集成NPU的自研路线。

  
或许有人会认为,国内MCU厂商也应该推出像STM32N6那样具有NPU的MCU产品,其实未必。因为STM32N6之类的AI MCU主要面向视觉AI、边缘推理等应用场景,而国内MCU厂商最有优势的市场在工业控制、家电、电机控制、新能源等,这些场景更需要实时控制AI。因此,未来国产AI MCU更可能先诞生于逆变器、储能、BMS、机器人关节、工业控制器等场景,而不是智能摄像机。

  
总之,中国厂商的机会在于发挥本土优势,深耕细分市场,并积极拥抱RISC-V等开放架构,通过软硬件协同创新,打造具有差异化竞争力的AI MCU产品。

图:2025-2026 年 AI MCU 新品(数据来源:各公司官网、芯查查)

结语

AI MCU的崛起,不仅是微控制器产业的一次重大升级,更是端侧AI普及的关键一步。从Arm Ethos的标准化路径,到自研NPU的差异化竞争,再到DSP增强的灵活策略和RISC-V的定制化潜力,全球厂商正以前所未有的热情投入这场技术竞赛。中国厂商凭借其独特的市场优势和技术积累,有望在全球AI MCU版图中占据重要一席。而机器人等新兴市场的爆发,更将为AI MCU带来广阔的增长空间。  

专题

查看更多
机器人

企业 | 累计近10亿元!清华系具身创企连续完成两轮融资

灵巧手 | 市场全景扫描,谁将领跑全球量产革命?

灵巧手 | 国内外主控芯片方案深度解析

低空飞行器

市场 | 从白皮书数据看北斗规模化应用发展前景

技术 | “低空经济” 崛起,2025无人机市场暗藏哪些潜力趋势?

应用 | 从地面到太空:Qorvo卫星通信如何串联低空经济?

IC品牌故事

IC 品牌故事 | 三次易主,安世半导体的跨国迁徙

IC 品牌故事 | 开放合作+特色深耕,华虹的突围之路

IC 品牌故事 | Wolfspeed:从LED到SiC,被中国厂商围追堵截的巨头

0
收藏
0