CURRENTVIEWING
CHAI 大模型 / 对话
VIEWS639
▸ AI 大模型 / 对话 · SITES

MiMo-VL SITES

小米公司于 2025 年 5 月开源发布的一款多模态大模型,具备强大的视觉、语言和交互推理能力。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2025年5月31日更新 2025年5月31日浏览 639

// 01 MiMo-VL 是什么

MiMo-VL 是小米公司于 2025 年 5 月开源发布的一款多模态大模型,具备强大的视觉、语言和交互推理能力。该模型在多个任务中表现出色,尤其在 GUI 操作、复杂图文问答和数学推理等方面,超越了同尺寸的标杆模型 Qwen2.5-VL-7B,甚至在某些任务上超过了 GPT-4o 等闭源模型


🧠 MiMo-VL 是什么?

MiMo-VL 是一款参数规模为 7B 的多模态大模型,集成了视觉编码器、跨模态投影层和语言模型。其视觉编码器基于 Qwen2.5-ViT,语言模型为小米自研的 MiMo-7B。通过多阶段预训练和混合在线强化学习(MORL)策略,MiMo-VL 在图像、视频和语言的通用问答及理解推理等任务上表现出色


🚀 如何使用 MiMo-VL?

  1. 获取模型访问 GitHub 项目地址Hugging Face 模型集 下载 MiMo-VL 的预训练模型和相关资源。

  2. 环境配置根据项目文档,配置所需的运行环境,包括安装依赖库和设置硬件加速。

  3. 加载模型使用提供的脚本或 API 加载模型,准备输入数据。

  4. 执行任务输入图像、视频或文本数据,调用模型进行推理、问答或其他多模态任务。

  5. 评估结果利用开源的评估框架(如 lmms-eval)对模型输出进行评估。


🔧 主要功能

  • 多模态理解与推理支持图像、视频和文本的联合理解,能够处理复杂的多模态问答和推理任务。

  • GUI 操作能力在 GUI Grounding 任务上表现出色,能够完成长达 10 多步的 GUI 操作,展示了在智能代理(Agent)时代的巨大潜力

  • 高效的参数规模仅用 7B 参数规模,在多个基准测试中超越了参数规模为其 10 倍的模型,如 Qwen2.5-VL-72B

  • 开源与可扩展性完整开源,提供详细的技术报告和评估框架,便于研究人员和开发者进行二次开发和应用。


⚙️ 技术原理

  • 多阶段预训练包括投影器预热、视觉-语言对齐、通用多模态预训练和长上下文监督微调(SFT)四个阶段,使用了总计 2.4T tokens 的多模态数据

  • 混合在线强化学习(MORL)引入了混合在线强化学习框架,结合感知准确性、视觉定位精度、逻辑推理能力和人类/AI 偏好等多种奖励信号,提升模型的推理和感知性能


🎯 应用场景

  • 智能助手作为多模态智能助手,处理图文混合的用户查询,提供准确的回答和建议。

  • 人机交互在智能设备中实现自然的语音和视觉交互,提升用户体验。

  • 教育与培训辅助教学,提供图文并茂的解释和演示,增强学习效果。

  • 内容创作支持多模态内容的生成和编辑,满足创作者的多样化需求。


📂 项目地址


// 04 常见 问题

MiMo-VL 是什么?
小米公司于 2025 年 5 月开源发布的一款多模态大模型,具备强大的视觉、语言和交互推理能力。
MiMo-VL 适合哪些场景?
可优先参考它所属的 AI 大模型 / 对话 分类,以及 AI助手、多模态大模型 等标签。
MiMo-VL 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
MiMo-VL 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 AI 大模型 / 对话 全部