MiniCPM-SALA – 面壁智能开源的9B端侧模型

0 3

MiniCPM-SALA是什么

MiniCPM-SALA是面壁智能开源的9B端侧大模型，采用创新的SALA（稀疏-线性混合注意力）架构，75%线性注意力负责全局高效建模，用25%稀疏注意力精准捕捉关键信息，引入混合位置编码HyPE实现长短文本无缝切换。模型首次在消费级显卡（如RTX 5090）上实现百万级上下文推理，显存占用低、推理速度快，为端侧Agent部署长文本能力提供可行路径。

MiniCPM-SALA的主要功能

百万级长文本处理：支持1M+ tokens上下文，首次在RTX 5090消费级显卡上完整运行百万长度推理。
高效推理加速：在256K序列上实现相比同尺寸稠密模型3.5倍的推理速度提升。
低显存占用：通过优化KV Cache，在512K至1M长度下仍稳定运行不OOM。
长短文本兼容：模型短文本保持与Qwen3-8B相当的通用能力，长文本具备显著优势。
端侧部署优化：专为手机、汽车、机器人等终端设备设计，实现本地化长上下文Agent。

MiniCPM-SALA的技术原理

SALA混合注意力架构：将75%线性注意力（Lightning Attention）与25%稀疏注意力（InfLLM v2）分层结合，前者以O(N)复杂度承担全局建模，后者按需计算关键局部信息，实现效率与精度的平衡。
HyPE混合位置编码：线性层保留RoPE维持短文本性能，稀疏层采用NoPE使KV-Cache与位置解耦，规避长距离衰减，支撑百万级上下文的高效检索。
HALO低成本迁移：通过参数转换、隐状态对齐、层选择和知识蒸馏四步，将全注意力模型迁移至混合架构，训练预算降至从头预训练的25%。