// 01 WBench 是什么

快速结论
WBench 是美团 LongCat 团队与复旦大学联合推出的开源评测基准,主打对「交互式视频世界模型」做综合多轮评测。它从视频质量、场景理解、交互能力(导航 / 事件编辑 / 角色动作 / 视角切换)、一致性和物理合理性五个维度,用 289 个多轮用例、1058 次交互、22 个指标系统打分。数据集、权重、代码均已开源(GitHub / Hugging Face / ModelScope),国内可直连。
适合谁优先使用
- 做视频生成 / 世界模型的 AI 研究者
- 想客观评估视频模型交互与一致性的团队
- 关注「可交互视频」前沿的从业者
- 需要标准化视频评测协议的工程师
核心能力拆解
五维度评测
质量、场景理解、交互、一致性、物理合理性。
多轮交互考察
导航 601、主体动作 213、事件编辑 183、视角切换 61。
22 指标量化
跨 5 维度细化为 22 个指标。
揭示能力短板
导航精度从第 1 轮到第 4 轮下降 21 分。
和同类工具怎么选
| 需求 | 优先考虑 | 判断标准 |
|---|---|---|
| 评测交互式视频世界模型 | WBench | 关注多轮交互与一致性 |
| 评测文生视频质量 | VBench 等 | 只看单段生成质量 |
| 评测图像生成 | 图像专项基准 | 不涉及视频 |
国内平替:国内视频模型评测多用通用指标,交互式世界模型专项基准较少。
限制与避坑
- 这是评测基准,不是可直接使用的产品,面向研究者
- 关键发现:没有单一模型在所有维度占优;物理正确性与渲染质量相关(ρ=0.82),但与控制能力无关
- 跑评测需对应模型与算力
典型工作流
评测一个视频世界模型
- 从 GitHub / Hugging Face 获取数据集与评测协议
- 接入待测的交互式视频世界模型
- 按五维度跑多轮交互用例
- 看 22 个指标得分与各维度短板
常见问题
WBench 是什么?
评测交互式视频世界模型的开源多轮基准。
谁做的?
美团 LongCat 团队 + 复旦大学。
免费吗?
数据 / 权重 / 代码全开源。
国内能用吗?
可以,GitHub / Hugging Face / ModelScope 均有。
NavXD 使用建议
如果你在做可交互的视频 / 世界模型,WBench 给了一把覆盖交互、一致性、物理的标准尺;它的结论也提醒:渲染好看不等于控制得准,做产品别只盯画质。
// 02 核心 功能
- 核心定位快速结论 WBench 是美团 LongCat 团队与复旦大学联合推出的开源评测基准,主打对「交互式视频世界模 […]
- 分类索引当前归档在 AI 视频,方便和同频工具横向比较。
- 能力标签关联标签包括 开源、美团、评测基准、交互式视频、视频世界模型。
- 使用入口已记录可访问入口,可通过本页主按钮跳转。
// 03 使用 场景
- 快速判断是否适合当前任务结合 AI 视频 定位和 开源、美团、评测基准 标签,先判断它是否匹配你的工作流。
- 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
- 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。
// 04 常见 问题
WBench 是什么?
快速结论 WBench 是美团 LongCat 团队与复旦大学联合推出的开源评测基准,主打对「交互式视频世界模 […]
WBench 适合哪些场景?
可优先参考它所属的 AI 视频 分类,以及 开源、美团、评测基准、交互式视频、视频世界模型 等标签。
WBench 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
WBench 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。
