// 01 MiniCPM 4.0 是什么
MiniCPM 4.0是由 MemSET(OpenBMB 团队)发布的 极高效端侧大型语言模型(Edge-side LLM),具备两种版本:
8B "Lightning Sparse"(稀疏架构)
0.5B “小钢炮”版本
它以惊人的速度和极高效率能在移动或嵌入式设备实现 LLM 聊天与推理。
2. 怎么使用?
部署于端设备:支持 llama.cpp、vLLM、SGLang、LlamaFactory 等框架,可在本地 CPU/移动设备上高效推理。
量化与加速:提供 BitCPM 量化版本,支持 ternary/int4/GGUF,为不同资源环境提供优化方案。
开源部署:源码和模型均在 GitHub 和 Hugging Face 上开放,开发者可自由下载使用。
3. 主要功能
1.双模 attention:自动在稀疏与密集注意力之间切换,保障长短文本推理效果。
2.终端级超高速度:比 Qwen3-8B 提速达 5x(常规)至 220x(极端),并极节省缓存。
3.端侧友好:支持多种低资源部署框架,适配 Intel、Qualcomm、MTK、华为昇腾芯片。
4.多用途版本:包括 MiniCPM4-Survey(长文本综述)、MiniCPM4‑MCP(工具调用增强。
4. 技术原理
模块化系统优化:结合架构、训练、推理和缓存策略实现系统级提升 。
InfLLM v2 稀疏注意力:只对 128 K 长文本中的 <5% token 计算密集操作。
BitCPM 量化:三值权重大幅压缩,提高推理效率。
FP8 + 多 token 预测训练:稳定高效训练策略,降低 FLOPs。
端侧 Comfy 框架:如 CPM.cu、vLLM、SGLang 等全链整合,支持框架无缝部署。
5. 应用场景
终端聊天机器人:可脱离云端、在设备上实现实时对话与创作。
文档/报告自动生成:适合处理报告、综述等中长文本任务。
AI Agent 端能力:MiniCPM4‑MCP 支持直接调用工具,降延迟提高安全。
多语言与视觉场景:虽 4.0 为文本模型,但 MiniCPM‑V /‑o 系列支持多模态部署。
6. 项目地址
GitHub:OpenBMB/MiniCPM(v4 分支)。
模型发布:Hugging Face openbmb/MiniCPM4‑8B 和 MiniCPM4‑0.5B。
Demo:Gradio 网页 demo 支持端侧在线推理。
