Mu 的定价模式为：unknown。

在 NavXD 上如何查找类似工具？

可以通过本页的分类、标签和相关推荐继续浏览同类 AI 工具，也可以返回 AI 工具导航首页按场景筛选更多替代方案。

AI 工具雷达// NavXD.v2LIVE

CURRENTVIEWING

CHAI 大模型 / 对话

▸ AI 大模型 / 对话 · SITES

Mu SITES

Q: Mu 如何收费？

Mu 的定价模式为：unknown。

Mu 是微软推出的 330M 参数小型语言模型，专为 Copilot+ PC 上的 NPU 本地运行优化，驱动 Windows 设置中的 AI Agent，支持自然语言控制系统设置。超快速响应（

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

访问官网收藏 0

收录 2025年7月1日更新 2025年7月1日浏览 413

// 01 Mu 是什么

Mu 是微软在 2025 年 6 月 23 日在 Windows Experience Blog 正式发布的小型语言模型，拥有约 3.3 亿参数，采用 encoder‑decoder 架构，专门针对 NPU（Neural Processing Unit）在 Copilot+ PC 上的本地部署进行了深度优化。它为 Windows Settings 上的 AI Agent 提供自然语言解析能力，使用户可以使用“打开蓝牙”、“调整亮度”等普通语言，系统自动执行对应设置。

为什么选择 Mu？

极致高效：本地 NPU 推理

Mu 完全在设备本地推理，无需云端，响应速度超快：揭示为每秒 100+ tokens，首次 token 延迟降低约 47%，解码速度达 decoder‑only 模型的 4.7 倍。根据 Windows Central 透露，其响应时间保持在 500ms 以内。

架构优势：encoder‑decoder 模式

Muon 使用 encoder‑decoder 架构，由 encoder 一次性消化输入，将其压缩为 latent 表示，然后 decoder 基于 latent 表示生成输出；相比 decoder‑only 模型，它能显著降低内存与算力开销，更适合边缘设备部署。

硬件协同优化

Mu 在设计时与芯片厂商（AMD、Intel、Qualcomm）紧密合作，通过权重共享（如共享 token embedding）、只使用 NPU 优化 operator、Grouped‑Query Attention、RoPE、Dual LayerNorm 等技术，进一步提升性能并压缩内存与功耗。

Mu 如何赋能 Windows Settings AI Agent？

多阶段训练与微调

1.预训练：在 Azure A100 GPU 上使用数百亿高质量学习语料进行预训练。

2.知识蒸馏：从更大的 Phi 系列模型蒸馏知识，提升参数效率。

3.任务微调：在 3.6M 系统设置指令样本上微调，通过 LoRA 和 prompt tuning 等技术，优化任务表现。

用户体验

当用户输入“打开深色模式”或“将亮度调高一点”，Mu 可解析意图并在 Settings 中执行操作，无需额外点击。对于模糊输入，系统会用常规搜索作为 fallback 保证稳定体验。此机制目前已向 Windows Insider Dev Channel 的 Copilot+ 用开放。

隐私与安全

Mu 在设备本地运行，无需上传任何数据至云端，确保用户隐私安全；同时部署在 NPU 上，比 CPU 或 GPU 更节能高效。

技术亮点解析

Dual LayerNorm 与 GQA 提升效率

Mu 应用了 dual LayerNorm 稳定训练，同时集成 grouped‑query attention（GQA），显著减少 attention 参数与计算需求，提升推理速度。

RoPE 支持长上下文

借助 Rotary Positional Embeddings（RoPE），Mu 在理解和生成长上下文时更稳定，适应更复杂的自然语言指令。

权重共享简化模型

Mu 输入输出层权重共享，不仅减少总参数量，还提高模型在 encoder‑decoder 间的语义一致性。

模型量化与 NPU 调优

Mu 使用 PTQ 将权重转换为 8/16 位整数，并联合芯片厂商定制 operator，确保在边缘 NPU 中保持高准确率和高速度。

真实体验效果如何？

延迟低于 500ms：无论是 “开启飞行模式“ 或 “关闭通知”，Mu 能快速响应。
本地执行：无需网络连接，无数据外泄风险。
控制精细：兼容数百项系统设置操作，支持撤销操作，用户体验良好。

多位开发者和行业观察者也在 Reddit 和 InfoQ 的社区中表达关注，并称这可能“悄然改变桌面 AI 体验”。

Mu 与同类技术对比

模型	参数量	架构	部署方式	速度	本地运行
Mu	330M	encoder‑decoder	NPU	100+ tokens/s，<500 ms	✅
Phi‑3.5‑mini	~3.3B	decoder‑only	CPU/GPU	较慢	❌
decoder‑only 同类模型	~300M	decoder‑only	CPU/GPU	延迟高，吞吐低	❌