MiMo-V2-Flash 由谁开发？

MiMo-V2-Flash 由 xiaomimimo 开发。

MiMo-V2-Flash 如何收费？

MiMo-V2-Flash 的定价模式为：unknown。

AI 工具雷达// NavXD.v4实时

当前浏览中

频道AI 大模型

浏览量201

▸ AI 大模型 · 大模型

MiMo-V2-Flash 大模型

小米开源的高效混合专家（MoE）大语言模型，具备 3090亿参数、150亿激活参数、150 tokens/s 超高速推理、256K 超长上下文支持，在推理、代码生成与智能体任务上表现出色。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

GitHub收藏 0

收录 2025年12月18日更新 2025年12月18日浏览 201

// 01 MiMo-V2-Flash 是什么

MiMo-V2-Flash 界面截图 — MiMo-V2-Flash · 界面预览

什么是 MiMo-V2-Flash

MiMo-V2-Flash 是由 小米 MiMo 团队 在 2025 年 12 月发布并 全面开源 的前沿大语言模型。模型采用 Mixture-of-Experts（MoE）混合专家架构，总参数量约 3090 亿，但在推理时只激活约 150 亿参数，从而在效率与能力之间实现了新的平衡。小米MiMo+1

该模型面向广泛的 AI 任务设计，尤其在 推理、代码生成、智能体代理任务和多轮对话等场景 中表现出色。它不仅是一个通用型的语言生成引擎，还提供了高性能的开发、部署和集成能力，是开发者和 AI 工具用户构建下一代智能应用的重要基础。新浪财经

MiMo-V2-Flash 的技术特点与架构

混合专家（MoE）架构与高效推理

MiMo-V2-Flash 的核心设计基于 混合专家网络（MoE），其全部参数约 3090 亿，但每个 token 只激活约 15 亿参数，极大降低了实际推理时的算力消耗和延迟。 MiMo-V2-Flash

该架构采用 Global Attention（全局注意力） 与 Sliding Window Attention（滑动窗口注意力） 的混合注意力机制（比例约为 1:5），这使得它可以兼顾全局语义理解和本地上下文处理，从而在处理 长上下文（最高 256 K token） 时保持高效与准确。 MiMo-V2-Flash

多令牌预测（Multi-Token Prediction, MTP）

MiMo-V2-Flash 通过内置的 多令牌预测机制（MTP） 实现自推理阶段的加速：它允许模型在一次推理步骤中预测多个 token，从而达到 约 150 tokens/s 的持续输出速度，这远超许多同类开源模型的推理速率。小米MiMo+1

这种策略在代码生成、自动摘要、对话生成等需要连续高吞吐量的任务中尤为明显，它能够在保持生成质量的同时大幅提升效率。 MiMo-V2-Flash

超长上下文支持与混合注意力

MiMo-V2-Flash 原生支持 256K token 的超长上下文，这意味着它能够理解、记忆并处理非常长的文本流，使其在处理大型文档、复杂对话历史或代码库时具备巨大优势。 MiMo-V2-Flash

这种能力来源于对滑动窗口注意力和全局注意力的交错应用，以及对注意力缓存机制的优化，可在不牺牲准确性的情况下，减少显存开销并维持一致性。 MiMo-V2-Flash

性能与基准表现

MiMo-V2-Flash 在多个公开基准测试中表现出色：

在 SWE-Bench Verified 编程基准中取得 73.4% 的领先成绩，在所有开源模型中排名第一。
在其他复杂推理和代码生成任务中，其表现接近一些顶级闭源大模型。
其高速推理可实现约 150 tokens/s 的生成速度，且推理成本非常低。小米MiMo+1

这些结果表明，MiMo-V2-Flash 不仅在传统 NLP 任务中稳健，而且在智能体应用和自动化工作流中具备显著优势。 MiMo-V2-Flash

MiMo-V2-Flash 的应用场景

代码生成与自动化开发

MiMo-V2-Flash 在代码生成、问题修复、自动重构及语言转换等任务上表现强劲。结合其高推理速度和长上下文能力，它可以生成完成代码块、项目结构甚至复杂编译脚本，并支持与开发工具如 Cursor、Cline、Claude Code 等集成使用。 MiMo-V2-Flash

智能体与对话系统

该模型在针对智能体（Agentic）任务设计上具有明显优势，可处理涉及多步骤决策、工具调用、复杂对话逻辑等任务，适用于构建高级 AI 助手、客服机器人和智能问答系统。小米MiMo

多轮自然语言互动

凭借其大上下文窗口能力，MiMo-V2-Flash 可用于多轮对话保持上下文记忆，使对话系统在长时间交互中保持一致性与语义连贯，适合构建长期交互应用，如知识库问答、在线教学助手与咨询系统。 MiMo-V2-Flash

数据分析与自动生成内容

在处理大规模文本、报告生成、摘要编写或数据解析任务时，该模型的长上下文处理和高速输出可以显著提升效率，同时可以结合生成脚本、可视化命令等任务，为数据科学和报告自动化提供强有力的底层引擎。 MiMo-V2-Flash

通用日常智能助手

MiMo-V2-Flash 也可作为通用 AI 助手使用，完成日常任务，如邮件草稿撰写、文本润色、语言翻译、知识检索等，并可与外部工具整合，扩展能力边界。小米MiMo

如何开始使用 MiMo-V2-Flash

GitHub 与 Hugging Face 下载

模型代码和基础权重已在 MiMo-V2-Flash 的 GitHub 仓库 上开源，并在 Hugging Face 平台提供权重下载与实验环境，支持开发者在本地或云端部署。小米MiMo

API 与即时体验

部分平台或第三方服务提供对 MiMo-V2-Flash 的 API 接口，可通过云 API 调用模型进行推理任务，实现无需本地高性能硬件即可调用模型。新浪财经

硬件与部署建议

为了充分利用其高速推理与大上下文支持能力，在本地部署时推荐搭配高显存 GPU 或采用分布式推理策略；也可以通过云端服务侧推理降低本地硬件需求。 MiMo-V2-Flash

使用技巧与优化建议

提示词（Prompt）与任务分解

对于复杂任务，如代码生成或深度推理，分解任务为小块提示、更精细的任务说明能提升 MiMo-V2-Flash 的输出质量。

上下文片段管理

在处理长上下文时，合理组织和维护历史对话/说明片段，有助于输出保持一致性和完整性。

// 02 核心功能

核心定位小米开源的高效混合专家（MoE）大语言模型，具备 3090亿参数、150亿激活参数、150 tokens/s 超高速推理、256K 超长上下文支持，在推理、代码生成与智能体任务上表现出色。
分类索引当前归档在 AI 大模型 / 对话，方便和同频工具横向比较。
能力标签关联标签包括 price-open-source。
使用入口已记录可访问入口，可通过本页主按钮跳转。