CURRENTVIEWING
CHAI 大模型 / 对话
VIEWS448
▸ AI 大模型 / 对话 · SITES

MindOmni SITES

MindOmni 是腾讯 ARC Lab 推出的统一多模态大语言模型,通过三阶段训练与 RGPO 强化学习,支持图像理解、推理生成与图像编辑,展现出色的数学与视觉推理能力,是面向 AI 工具使用者的开源实用助手。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2025年6月22日更新 2025年6月22日浏览 448

// 01 MindOmni 是什么

在多模态 AI 快速发展潮流中,MindOmni凭借其强大的视觉理解和推理生成能力,成为研究者与开发者关注的开源项目。本文将从模型背景、功能亮点、性能表现、实用指南与 FAQ 等角度,全面分析 MindOmni。


MindOmni 是什么?

MindOmni 是腾讯 ARC Lab 联合清华、港大等团队发布的统一多模态大语言模型,具备图像理解、推理生成与编辑能力。其核心通过引入 RGPO(Reasoning Generation Policy Optimization)算法,在视觉语言模型基础上实现推理增强,支持理解 + 生成双重任务能力。

主要开源载体位于 GitHub(TencentARC/MindOmni),并在 Hugging Face 发布演示与模型权重


核心功能亮点

多模态理解与生成

  • 支持识别图片内容并结合文本 Prompt 进行高质量图像生成或编辑。

  • 在图像推理任务中,实现对空间、逻辑、数学等复杂场景的 COP 级理解与表达

三阶段训练流程

  • 预训练阶段:基于解码器融合视觉与语言信息;

  • CoT 指令微调阶段:使用思考链提示提升推理结构化生成;

  • RGPO 强化学习阶段:结合视觉 + 文本反馈优化策略梯度

推理生成能力拔尖

  • 在 WISE 基准展示优秀表现,特别是在涉及数学、时间、空间推理的问题上,生成 + 理解子项得分高达 0.71(相较无思考版仅 0.43)

  • Image understanding 基准(MMMU、MMBench、RWQA)上也优于大多数统一模型

开源+部署友好

  • 完全开源(GPL‑3.0 或 Apache‑2.0);

  • GitHub 提供示例代码、Hugging Face 提供交互 Space 供开发者体验


性能对比与效果

  • 理解与生成双任务指标;

  • 图像理解benchmark得分在 50–83 范围领先于 Emu3、Qwen2.5-VL 等模型;

  • 推理生成评价:GenEval-Bench 全面性能达 0.83,DPG bench 推理得分约 0.89

  • WISE推理得分 0.71(带思考链)显著提升


安装部署指南

  1. 克隆项目

    git clone https://github.com/TencentARC/MindOmni.git cd MindOmni
  2. 安装依赖

    pip install -r requirements.txt
  3. 下载模型权重

    • Huggin Face: EasonXiao-888/MindOmni

  4. 运行演示

    python app.py --model_path <你的模型路径>

    访问 Gradio 或本地服务进行图像+文本交互


// 04 常见 问题

MindOmni 是什么?
MindOmni 是腾讯 ARC Lab 推出的统一多模态大语言模型,通过三阶段训练与 RGPO 强化学习,支持图像理解、推理生成与图像编辑,展现出色的数学与视觉推理能力,是面向 AI 工具使用者的开源实用助手。
MindOmni 适合哪些场景?
可优先参考它所属的 AI 大模型 / 对话 分类,以及 tech-cv、price-open-source、多模态大语言模型 等标签。
MindOmni 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
MindOmni 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

类似工具 // V4 图谱1 条
搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 AI 大模型 / 对话 全部