CURRENTVIEWING
CH最近收录AI
VIEWS262
▸ 最近收录AI · SITES

Molmo 2 SITES

Allen Institute for AI (Ai2) 发布的开源 视频与多图像理解多模态模型,具备先进的空间–时间定位、视频跟踪与密集描述能力,适用于视频问答、对象计数、追踪与密集标注等复杂任务。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2025年12月18日更新 2025年12月18日浏览 262

// 01 Molmo 2 是什么

什么是 Molmo 2

Molmo 2 是由 Allen Institute for AI(Ai2) 研究团队发布的一款 先进开放多模态模型套件,以 视频理解、空间定位(pointing)、追踪(tracking)和密集描述(dense captioning) 为核心任务,能联合理解视频、图像和文本信息,提供跨时空的推理与交互能力艾伦人工智能研究所

它是对原始 Molmo 模型的重大升级,继承了 Image-Pointing(图像定位)和高质量图像问答能力,并扩展至视频与多图像输入,引入了定义性更强的空间–时间定位机制,使模型在多个开放权重视觉–语言基准中表现出最顶级性能。 艾伦人工智能研究所

Molmo 2 的设计目标是提供一个近乎开源最高水平的视频感知与理解模型,便于研究者和开发者在不依赖封闭 API 的情况下,构建强大的视频问答、追踪、对象计数与密集标注系统。 艾伦人工智能研究所


Molmo 2 的技术架构与核心能力

多模态融合架构

Molmo 2 的体系结构核心由三个部分构成:

  1. 视觉编码器(Vision Encoder)
    负责将图像或视频帧转换为视觉令牌(visual tokens),捕捉空间特征。 艾伦人工智能研究所

  2. 语言理解主干(LLM Backbone)
    结合文本提示和视觉令牌进行联合空间–时间推理,理解视觉内容与用户查询之间的复杂语义关系。 艾伦人工智能研究所

  3. 轻量连接模块(Connector)
    将视觉令牌与语言令牌融合,同时引入时间戳、多图像索引等信息,使模型能够对视频中“何时”和“何处”发生的事件进行空间–时间定位。 艾伦人工智能研究所

这种设计使 Molmo 2 能够在图像、视频和多图像集合之间进行统一理解,并生成既包含语言回答又包含空间位置和时间标注的输出。 艾伦人工智能研究所


空间–时间定位(Video Pointing & Tracking)

Molmo 2 的一项核心能力是其视频定位与追踪能力。不同于传统仅输出语言答案的模型,Molmo 2 可以:

  • 对视频帧中的事件输出 像素级坐标 + 时间戳

  • 实现 对象跨遮挡跟踪

  • 解决空间–时间参考表达(如“谁在第 31 秒进球?”)

  • 实现计数与目标定位(Counting by Pointing)

这一能力来自其训练目标在视觉问答中 输出空间坐标,不仅仅是文本答案,还提供人类可验证的证据位置。 艾伦人工智能研究所


密集视频标注与复杂问答推理

Molmo 2 在复杂视频理解任务上表现出色,包括:

  • 密集视频字幕(dense captioning):对整个视频剪辑生成连贯的长文本描述。

  • 长视频问答(long-video QA):回答跨多个时段的问题,理解长期动态关系。

  • 对象计数与问答(counting + QA):在多帧视频中输出物体或事件计数,并提供可视化定位。 艾伦人工智能研究所

这些能力大幅超越早期 Molmo 模型和同类开放权重模型,并在一些任务上与顶级封闭系统(如 Gemini 3 Pro)相竞争。 艾伦人工智能研究所


Molmo 2 的三种变体

Molmo 2 旨在覆盖从高性能研究到轻量部署的不同需求,提供以下三个变体:

这些变体在参数规模和推理效率上各有所长,使得 Molmo 2 不仅适合科研探索,也适用于轻量级产品和跨平台部署。 艾伦人工智能研究所


训练方法与大规模数据支持

Molmo 2 的核心训练策略包括两个阶段:

  1. 视觉–语言对齐预训练: 采用联合图像标注与定位任务,使模型学习空间定位与视觉理解。 艾伦人工智能研究所

  2. 多模态混合微调: 在图像、视频、文本、密集问答与追踪数据上细调模型,以提升跨任务表现。 艾伦人工智能研究所

为实现对视频的深度理解,该项目构建了一个规模超过 9 百万示例的数据集合集,包括密集字幕、长视频问答、定位数据等多个定制数据集,使训练覆盖更广泛的视觉–时间动态。 艾伦人工智能研究所


性能对比与评价

在 Ai2 发布的评估数据中,Molmo 2 表现出显著的优势:

  • 在图像与多图像问答、视频问答、计数和定位等基准测试中,全体变体均名列开放权重模型之首。 艾伦人工智能研究所

  • 在一些任务中 Molmo 2 的表现甚至超越了闭源系统(例如在视频追踪任务上以较高优势领先 Gemini 3 Pro)。 艾伦人工智能研究所

  • 人类偏好评估中,Molmo 2(8B)在开放模型中表现最优。 艾伦人工智能研究所

虽然在某些最前沿闭源模型上仍略有差距,但其开放性和高性能使其成为研究者和开发者的重要工具。 艾伦人工智能研究所


主要功能与典型应用场景

视频问答与多模态检索

使用 Molmo 2 用户可以对视频片段提出自然语言问题,如:

  • “这个人什么时候第一次拿起红球?”

  • “在这个剪辑中,哪一帧显示了全部动作?”

模型不仅返回答案,还提供空间坐标和时间戳,帮助开发更复杂的视频智能应用。 艾伦人工智能研究所


对象跟踪与计数系统

Molmo 2 能识别视频中对象并跟踪其在时间序列上的运动轨迹,还可在用户指令下计算动作或对象出现的次数,这适用于:


密集视频生成与描述

利用密集字幕能力,Molmo 2 可自动生成长文本描述,涵盖视频中的复杂事件、动作关系与背景,从而提升:


使用与集成

Ai2 Playground体验

Molmo 2 已集成到 Ai2 Playground,用户可直接上传视频或多张图片测试其定位、追踪、计数等功能,无需自行部署基础设施。 艾伦人工智能研究所


API 与未来支持

官方计划近期发布 API 接口,使开发者能够在自己的系统中直接调用 Molmo 2 的视频理解功能进行自动分析与推理。 艾伦人工智能研究所


// 04 常见 问题

Molmo 2 是什么?
Allen Institute for AI (Ai2) 发布的开源 视频与多图像理解多模态模型,具备先进的空间–时间定位、视频跟踪与密集描述能力,适用于视频问答、对象计数、追踪与密集标注等复杂任务。
Molmo 2 适合哪些场景?
可优先参考它所属的 最近收录AI 分类,以及 price-open-source 等标签。
Molmo 2 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
Molmo 2 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 最近收录AI 全部