Molmo 2 如何收费？

Molmo 2 的定价模式为：unknown。

AI 工具雷达// NavXD.v4实时

当前浏览中

频道AI 视频

浏览量201

▸ AI 视频 · 应用工具

Molmo 2 应用工具

Q: Molmo 2 是什么？

Allen Institute for AI (Ai2) 发布的开源 视频与多图像理解多模态模型，具备先进的空间–时间定位、视频跟踪与密集描述能力，适用于视频问答、对象计数、追踪与密集标注等复杂任务。

Allen Institute for AI (Ai2) 发布的开源视频与多图像理解多模态模型，具备先进的空间–时间定位、视频跟踪与密集描述能力，适用于视频问答、对象计数、追踪与密集标注等复杂任务。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

访问官网收藏 0

收录 2025年12月18日更新 2025年12月18日浏览 201

// 01 Molmo 2 是什么

什么是 Molmo 2

Molmo 2 是由 Allen Institute for AI（Ai2） 研究团队发布的一款 先进开放多模态模型套件，以 视频理解、空间定位（pointing）、追踪（tracking）和密集描述（dense captioning） 为核心任务，能联合理解视频、图像和文本信息，提供跨时空的推理与交互能力。艾伦人工智能研究所

它是对原始 Molmo 模型的重大升级，继承了 Image-Pointing（图像定位）和高质量图像问答能力，并扩展至视频与多图像输入，引入了定义性更强的空间–时间定位机制，使模型在多个开放权重视觉–语言基准中表现出最顶级性能。艾伦人工智能研究所

Molmo 2 的设计目标是提供一个近乎开源最高水平的视频感知与理解模型，便于研究者和开发者在不依赖封闭 API 的情况下，构建强大的视频问答、追踪、对象计数与密集标注系统。艾伦人工智能研究所

Molmo 2 的技术架构与核心能力

多模态融合架构

Molmo 2 的体系结构核心由三个部分构成：

视觉编码器（Vision Encoder）
负责将图像或视频帧转换为视觉令牌（visual tokens），捕捉空间特征。艾伦人工智能研究所
语言理解主干（LLM Backbone）
结合文本提示和视觉令牌进行联合空间–时间推理，理解视觉内容与用户查询之间的复杂语义关系。艾伦人工智能研究所
轻量连接模块（Connector）
将视觉令牌与语言令牌融合，同时引入时间戳、多图像索引等信息，使模型能够对视频中“何时”和“何处”发生的事件进行空间–时间定位。艾伦人工智能研究所

这种设计使 Molmo 2 能够在图像、视频和多图像集合之间进行统一理解，并生成既包含语言回答又包含空间位置和时间标注的输出。艾伦人工智能研究所

空间–时间定位（Video Pointing & Tracking）

Molmo 2 的一项核心能力是其视频定位与追踪能力。不同于传统仅输出语言答案的模型，Molmo 2 可以：

对视频帧中的事件输出 像素级坐标 + 时间戳
实现 对象跨遮挡跟踪
解决空间–时间参考表达（如“谁在第 31 秒进球？”）
实现计数与目标定位（Counting by Pointing）

这一能力来自其训练目标在视觉问答中 输出空间坐标，不仅仅是文本答案，还提供人类可验证的证据位置。艾伦人工智能研究所

密集视频标注与复杂问答推理

Molmo 2 在复杂视频理解任务上表现出色，包括：

密集视频字幕（dense captioning）：对整个视频剪辑生成连贯的长文本描述。
长视频问答（long-video QA）：回答跨多个时段的问题，理解长期动态关系。
对象计数与问答（counting + QA）：在多帧视频中输出物体或事件计数，并提供可视化定位。艾伦人工智能研究所

这些能力大幅超越早期 Molmo 模型和同类开放权重模型，并在一些任务上与顶级封闭系统（如 Gemini 3 Pro）相竞争。艾伦人工智能研究所

Molmo 2 的三种变体

Molmo 2 旨在覆盖从高性能研究到轻量部署的不同需求，提供以下三个变体：

Molmo 2 (8B)： 基于 Qwen 3 的主力模型，适合高精度视频理解与复杂推理任务。艾伦人工智能研究所
Molmo 2 (4B)： 同样基于 Qwen 3，但针对效率和资源受限场景优化。艾伦人工智能研究所
Molmo 2-O (7B)： 基于 Ai2 自研开放 LLM Olmo，可全栈开放，便于深度研究与自定义扩展。艾伦人工智能研究所

这些变体在参数规模和推理效率上各有所长，使得 Molmo 2 不仅适合科研探索，也适用于轻量级产品和跨平台部署。艾伦人工智能研究所

训练方法与大规模数据支持

Molmo 2 的核心训练策略包括两个阶段：

视觉–语言对齐预训练： 采用联合图像标注与定位任务，使模型学习空间定位与视觉理解。艾伦人工智能研究所
多模态混合微调： 在图像、视频、文本、密集问答与追踪数据上细调模型，以提升跨任务表现。艾伦人工智能研究所

为实现对视频的深度理解，该项目构建了一个规模超过 9 百万示例的数据集合集，包括密集字幕、长视频问答、定位数据等多个定制数据集，使训练覆盖更广泛的视觉–时间动态。艾伦人工智能研究所

性能对比与评价

在 Ai2 发布的评估数据中，Molmo 2 表现出显著的优势：

在图像与多图像问答、视频问答、计数和定位等基准测试中，全体变体均名列开放权重模型之首。艾伦人工智能研究所
在一些任务中 Molmo 2 的表现甚至超越了闭源系统（例如在视频追踪任务上以较高优势领先 Gemini 3 Pro）。艾伦人工智能研究所
人类偏好评估中，Molmo 2（8B）在开放模型中表现最优。艾伦人工智能研究所

虽然在某些最前沿闭源模型上仍略有差距，但其开放性和高性能使其成为研究者和开发者的重要工具。艾伦人工智能研究所

主要功能与典型应用场景

视频问答与多模态检索

使用 Molmo 2 用户可以对视频片段提出自然语言问题，如：

“这个人什么时候第一次拿起红球？”
“在这个剪辑中，哪一帧显示了全部动作？”

模型不仅返回答案，还提供空间坐标和时间戳，帮助开发更复杂的视频智能应用。艾伦人工智能研究所

对象跟踪与计数系统

Molmo 2 能识别视频中对象并跟踪其在时间序列上的运动轨迹，还可在用户指令下计算动作或对象出现的次数，这适用于：

监控与行为分析
运动事件计数与分析
视频内容搜索与过滤艾伦人工智能研究所

密集视频生成与描述

利用密集字幕能力，Molmo 2 可自动生成长文本描述，涵盖视频中的复杂事件、动作关系与背景，从而提升：

自动摘要与剪辑描述
内容标签与搜索性能
可视化讲解与字幕辅助系统艾伦人工智能研究所

使用与集成

Ai2 Playground体验

Molmo 2 已集成到 Ai2 Playground，用户可直接上传视频或多张图片测试其定位、追踪、计数等功能，无需自行部署基础设施。艾伦人工智能研究所

API 与未来支持

官方计划近期发布 API 接口，使开发者能够在自己的系统中直接调用 Molmo 2 的视频理解功能进行自动分析与推理。艾伦人工智能研究所

// 02 核心功能

核心定位Allen Institute for AI (Ai2) 发布的开源视频与多图像理解多模态模型，具备先进的空间–时间定位、视频跟踪与密集描述能力，适用于视频问答、对象计数、追踪与密集标注等复杂任务。
分类索引当前归档在最近收录AI，方便和同频工具横向比较。
能力标签关联标签包括 price-open-source。
使用入口已记录可访问入口，可通过本页主按钮跳转。