// 01 Molmo 2 是什么
什么是 Molmo 2
Molmo 2 是由 Allen Institute for AI(Ai2) 研究团队发布的一款 先进开放多模态模型套件,以 视频理解、空间定位(pointing)、追踪(tracking)和密集描述(dense captioning) 为核心任务,能联合理解视频、图像和文本信息,提供跨时空的推理与交互能力。 艾伦人工智能研究所
它是对原始 Molmo 模型的重大升级,继承了 Image-Pointing(图像定位)和高质量图像问答能力,并扩展至视频与多图像输入,引入了定义性更强的空间–时间定位机制,使模型在多个开放权重视觉–语言基准中表现出最顶级性能。 艾伦人工智能研究所
Molmo 2 的设计目标是提供一个近乎开源最高水平的视频感知与理解模型,便于研究者和开发者在不依赖封闭 API 的情况下,构建强大的视频问答、追踪、对象计数与密集标注系统。 艾伦人工智能研究所
Molmo 2 的技术架构与核心能力
多模态融合架构
Molmo 2 的体系结构核心由三个部分构成:
视觉编码器(Vision Encoder)
负责将图像或视频帧转换为视觉令牌(visual tokens),捕捉空间特征。 艾伦人工智能研究所语言理解主干(LLM Backbone)
结合文本提示和视觉令牌进行联合空间–时间推理,理解视觉内容与用户查询之间的复杂语义关系。 艾伦人工智能研究所轻量连接模块(Connector)
将视觉令牌与语言令牌融合,同时引入时间戳、多图像索引等信息,使模型能够对视频中“何时”和“何处”发生的事件进行空间–时间定位。 艾伦人工智能研究所
这种设计使 Molmo 2 能够在图像、视频和多图像集合之间进行统一理解,并生成既包含语言回答又包含空间位置和时间标注的输出。 艾伦人工智能研究所
空间–时间定位(Video Pointing & Tracking)
Molmo 2 的一项核心能力是其视频定位与追踪能力。不同于传统仅输出语言答案的模型,Molmo 2 可以:
对视频帧中的事件输出 像素级坐标 + 时间戳
实现 对象跨遮挡跟踪
解决空间–时间参考表达(如“谁在第 31 秒进球?”)
实现计数与目标定位(Counting by Pointing)
这一能力来自其训练目标在视觉问答中 输出空间坐标,不仅仅是文本答案,还提供人类可验证的证据位置。 艾伦人工智能研究所
密集视频标注与复杂问答推理
Molmo 2 在复杂视频理解任务上表现出色,包括:
密集视频字幕(dense captioning):对整个视频剪辑生成连贯的长文本描述。
长视频问答(long-video QA):回答跨多个时段的问题,理解长期动态关系。
对象计数与问答(counting + QA):在多帧视频中输出物体或事件计数,并提供可视化定位。 艾伦人工智能研究所
这些能力大幅超越早期 Molmo 模型和同类开放权重模型,并在一些任务上与顶级封闭系统(如 Gemini 3 Pro)相竞争。 艾伦人工智能研究所
Molmo 2 的三种变体
Molmo 2 旨在覆盖从高性能研究到轻量部署的不同需求,提供以下三个变体:
Molmo 2 (8B): 基于 Qwen 3 的主力模型,适合高精度视频理解与复杂推理任务。 艾伦人工智能研究所
Molmo 2 (4B): 同样基于 Qwen 3,但针对效率和资源受限场景优化。 艾伦人工智能研究所
Molmo 2-O (7B): 基于 Ai2 自研开放 LLM Olmo,可全栈开放,便于深度研究与自定义扩展。 艾伦人工智能研究所
这些变体在参数规模和推理效率上各有所长,使得 Molmo 2 不仅适合科研探索,也适用于轻量级产品和跨平台部署。 艾伦人工智能研究所
训练方法与大规模数据支持
Molmo 2 的核心训练策略包括两个阶段:
视觉–语言对齐预训练: 采用联合图像标注与定位任务,使模型学习空间定位与视觉理解。 艾伦人工智能研究所
多模态混合微调: 在图像、视频、文本、密集问答与追踪数据上细调模型,以提升跨任务表现。 艾伦人工智能研究所
为实现对视频的深度理解,该项目构建了一个规模超过 9 百万示例的数据集合集,包括密集字幕、长视频问答、定位数据等多个定制数据集,使训练覆盖更广泛的视觉–时间动态。 艾伦人工智能研究所
性能对比与评价
在 Ai2 发布的评估数据中,Molmo 2 表现出显著的优势:
在图像与多图像问答、视频问答、计数和定位等基准测试中,全体变体均名列开放权重模型之首。 艾伦人工智能研究所
在一些任务中 Molmo 2 的表现甚至超越了闭源系统(例如在视频追踪任务上以较高优势领先 Gemini 3 Pro)。 艾伦人工智能研究所
人类偏好评估中,Molmo 2(8B)在开放模型中表现最优。 艾伦人工智能研究所
虽然在某些最前沿闭源模型上仍略有差距,但其开放性和高性能使其成为研究者和开发者的重要工具。 艾伦人工智能研究所
主要功能与典型应用场景
视频问答与多模态检索
使用 Molmo 2 用户可以对视频片段提出自然语言问题,如:
“这个人什么时候第一次拿起红球?”
“在这个剪辑中,哪一帧显示了全部动作?”
模型不仅返回答案,还提供空间坐标和时间戳,帮助开发更复杂的视频智能应用。 艾伦人工智能研究所
对象跟踪与计数系统
Molmo 2 能识别视频中对象并跟踪其在时间序列上的运动轨迹,还可在用户指令下计算动作或对象出现的次数,这适用于:
监控与行为分析
运动事件计数与分析
视频内容搜索与过滤艾伦人工智能研究所
密集视频生成与描述
利用密集字幕能力,Molmo 2 可自动生成长文本描述,涵盖视频中的复杂事件、动作关系与背景,从而提升:
自动摘要与剪辑描述
内容标签与搜索性能
可视化讲解与字幕辅助系统艾伦人工智能研究所
使用与集成
Ai2 Playground体验
Molmo 2 已集成到 Ai2 Playground,用户可直接上传视频或多张图片测试其定位、追踪、计数等功能,无需自行部署基础设施。 艾伦人工智能研究所
API 与未来支持
官方计划近期发布 API 接口,使开发者能够在自己的系统中直接调用 Molmo 2 的视频理解功能进行自动分析与推理。 艾伦人工智能研究所
// 02 核心 功能
- 核心定位Allen Institute for AI (Ai2) 发布的开源 视频与多图像理解多模态模型,具备先进的空间–时间定位、视频跟踪与密集描述能力,适用于视频问答、对象计数、追踪与密集标注等复杂任务。
- 分类索引当前归档在 最近收录AI,方便和同频工具横向比较。
- 能力标签关联标签包括 price-open-source。
- 使用入口已记录可访问入口,可通过本页主按钮跳转。
// 03 使用 场景
- 快速判断是否适合当前任务结合 最近收录AI 定位和 price-open-source 标签,先判断它是否匹配你的工作流。
- 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
- 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。
