当前浏览中
频道AI 视频
浏览量7
▸ AI 视频 · 应用工具

WBench 应用工具

快速结论 WBench 是美团 LongCat 团队与复旦大学联合推出的开源评测基准,主打对「交互式视频世界模 […]

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · 中文/多语言
GitHub收藏 0
收录 2026年6月26日更新 2026年6月26日浏览 7

// 01 WBench 是什么

WBench 界面截图
WBench · 界面预览

快速结论

WBench 是美团 LongCat 团队与复旦大学联合推出的开源评测基准,主打对「交互式视频世界模型」做综合多轮评测。它从视频质量、场景理解、交互能力(导航 / 事件编辑 / 角色动作 / 视角切换)、一致性和物理合理性五个维度,用 289 个多轮用例、1058 次交互、22 个指标系统打分。数据集、权重、代码均已开源(GitHub / Hugging Face / ModelScope),国内可直连。

适合谁优先使用

  • 做视频生成 / 世界模型的 AI 研究者
  • 想客观评估视频模型交互与一致性的团队
  • 关注「可交互视频」前沿的从业者
  • 需要标准化视频评测协议的工程师

核心能力拆解

五维度评测

质量、场景理解、交互、一致性、物理合理性。

多轮交互考察

导航 601、主体动作 213、事件编辑 183、视角切换 61。

22 指标量化

跨 5 维度细化为 22 个指标。

揭示能力短板

导航精度从第 1 轮到第 4 轮下降 21 分。

和同类工具怎么选

需求优先考虑判断标准
评测交互式视频世界模型WBench关注多轮交互与一致性
评测文生视频质量VBench 等只看单段生成质量
评测图像生成图像专项基准不涉及视频

国内平替:国内视频模型评测多用通用指标,交互式世界模型专项基准较少。

限制与避坑

  • 这是评测基准,不是可直接使用的产品,面向研究者
  • 关键发现:没有单一模型在所有维度占优;物理正确性与渲染质量相关(ρ=0.82),但与控制能力无关
  • 跑评测需对应模型与算力

典型工作流

评测一个视频世界模型

  1. 从 GitHub / Hugging Face 获取数据集与评测协议
  2. 接入待测的交互式视频世界模型
  3. 按五维度跑多轮交互用例
  4. 看 22 个指标得分与各维度短板

常见问题

WBench 是什么?

评测交互式视频世界模型的开源多轮基准。

谁做的?

美团 LongCat 团队 + 复旦大学。

免费吗?

数据 / 权重 / 代码全开源。

国内能用吗?

可以,GitHub / Hugging Face / ModelScope 均有。

NavXD 使用建议

如果你在做可交互的视频 / 世界模型,WBench 给了一把覆盖交互、一致性、物理的标准尺;它的结论也提醒:渲染好看不等于控制得准,做产品别只盯画质。

// 02 核心 功能

  • 核心定位快速结论 WBench 是美团 LongCat 团队与复旦大学联合推出的开源评测基准,主打对「交互式视频世界模 […]
  • 分类索引当前归档在 AI 视频,方便和同频工具横向比较。
  • 能力标签关联标签包括 开源、美团、评测基准、交互式视频、视频世界模型。
  • 使用入口已记录可访问入口,可通过本页主按钮跳转。

// 03 使用 场景

  • 快速判断是否适合当前任务结合 AI 视频 定位和 开源、美团、评测基准 标签,先判断它是否匹配你的工作流。
  • 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
  • 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。

// 04 常见 问题

WBench 是什么?
快速结论 WBench 是美团 LongCat 团队与复旦大学联合推出的开源评测基准,主打对「交互式视频世界模 […]
WBench 适合哪些场景?
可优先参考它所属的 AI 视频 分类,以及 开源、美团、评测基准、交互式视频、视频世界模型 等标签。
WBench 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
WBench 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

同频段 更多信号

查看 AI 视频 全部