MiMo-VL 是一款收录于 AI工具导航的 AI 大模型 / 对话，适合关注 AI助手、多模态大模型的用户了解和使用。小米公司于 2025 年 5 月开源发布的一款多模态大模型，具备强大的视觉、语言和交互推理能力。你可以通过本页查看官网入口、所属分类、相关标签和同类工具，快速判断它是否适合自己的工作流。

在 NavXD 上如何查找类似工具？

可以通过本页的分类、标签和相关推荐继续浏览同类 AI 工具，也可以返回 AI 工具导航首页按场景筛选更多替代方案。

AI 工具雷达// NavXD.v2LIVE

CURRENTVIEWING

CHAI 大模型 / 对话

▸ AI 大模型 / 对话 · SITES

MiMo-VL SITES

小米公司于 2025 年 5 月开源发布的一款多模态大模型，具备强大的视觉、语言和交互推理能力。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

访问官网收藏 0

收录 2025年5月31日更新 2025年5月31日浏览 639

// 01 MiMo-VL 是什么

MiMo-VL 是小米公司于 2025 年 5 月开源发布的一款多模态大模型，具备强大的视觉、语言和交互推理能力。该模型在多个任务中表现出色，尤其在 GUI 操作、复杂图文问答和数学推理等方面，超越了同尺寸的标杆模型 Qwen2.5-VL-7B，甚至在某些任务上超过了 GPT-4o 等闭源模型。

🧠 MiMo-VL 是什么？

MiMo-VL 是一款参数规模为 7B 的多模态大模型，集成了视觉编码器、跨模态投影层和语言模型。其视觉编码器基于 Qwen2.5-ViT，语言模型为小米自研的 MiMo-7B。通过多阶段预训练和混合在线强化学习（MORL）策略，MiMo-VL 在图像、视频和语言的通用问答及理解推理等任务上表现出色。

🚀 如何使用 MiMo-VL？

获取模型：访问 GitHub 项目地址或 Hugging Face 模型集下载 MiMo-VL 的预训练模型和相关资源。
环境配置：根据项目文档，配置所需的运行环境，包括安装依赖库和设置硬件加速。
加载模型：使用提供的脚本或 API 加载模型，准备输入数据。
执行任务：输入图像、视频或文本数据，调用模型进行推理、问答或其他多模态任务。
评估结果：利用开源的评估框架（如 lmms-eval）对模型输出进行评估。

🔧 主要功能

多模态理解与推理：支持图像、视频和文本的联合理解，能够处理复杂的多模态问答和推理任务。
GUI 操作能力：在 GUI Grounding 任务上表现出色，能够完成长达 10 多步的 GUI 操作，展示了在智能代理（Agent）时代的巨大潜力。
高效的参数规模：仅用 7B 参数规模，在多个基准测试中超越了参数规模为其 10 倍的模型，如 Qwen2.5-VL-72B 。
开源与可扩展性：完整开源，提供详细的技术报告和评估框架，便于研究人员和开发者进行二次开发和应用。

⚙️ 技术原理

多阶段预训练：包括投影器预热、视觉-语言对齐、通用多模态预训练和长上下文监督微调（SFT）四个阶段，使用了总计 2.4T tokens 的多模态数据。
混合在线强化学习（MORL）：引入了混合在线强化学习框架，结合感知准确性、视觉定位精度、逻辑推理能力和人类/AI 偏好等多种奖励信号，提升模型的推理和感知性能。