// 01 VitaBench 2.0 是什么

快速结论
VitaBench 2.0 是美团-龙猫团队(meituan-longcat)推出的开源评测基准,主打衡量大模型智能体在「长期用户交互」中的个性化和主动性。它把任务组织成按时间排列的用户序列,让偏好嵌在碎片化、异构的日常互动里,考察模型能否推断、利用并随时间更新用户偏好。以 MIT 协议开源,代码、数据集(Hugging Face)、论文(arXiv 2605.27141)齐全;国内可直连 GitHub / HF(拉取建议配镜像)。
适合谁优先使用
- 做 Agent / 记忆 / 个性化方向的 AI 研究者
- 想客观评估自家大模型长期个性化能力的团队
- 研究用户偏好建模、主动交互的工程师
- 关注 Agent 评测前沿的从业者
核心能力拆解
长期个性化评测
考察模型推断、利用并随时间更新用户偏好的能力。
主动交互考察
看模型能否识别缺失信息并主动获取。
可扩展记忆接口
支持对比不同记忆架构的表现。
真实难度
56 个用户、771 个子任务、多会话长期日常场景。
和同类工具怎么选
| 需求 | 优先考虑 | 判断标准 |
|---|---|---|
| 评测长期个性化 + 主动性 | VitaBench 2.0 | 关注记忆、偏好、主动交互 |
| 评测通用 Agent 任务 | AgentBench 等 | 要综合任务覆盖 |
| 评测工具调用 | 专项工具基准 | 只关心 tool-use |
国内平替:国内大模型评测多用通用榜单,长期个性化专项基准较少。
限制与避坑
- 这是评测基准 / 数据集,不是可直接使用的产品,面向研究者
- 跑评测需配置待测 LLM(API / 本地)+ 下载 HF 数据集
- 结论提醒:最强的 Claude-Opus-4.6(思维型)完整上下文也仅 ~50.3% Avg@4,别高估现有模型的长期个性化
典型工作流
跑一次评测
- clone 仓库并安装
- 从 Hugging Face 下载 VitaBench 2.0 数据集
- 配置待测 LLM
- 运行
vita run跑评估 - 看 Avg@4 等指标与失败模式
常见问题
VitaBench 2.0 是什么?
评测大模型智能体长期个性化与主动性的开源基准。
谁做的?
美团-龙猫团队(meituan-longcat)。
免费吗?
MIT 协议开源,免费。
国内能用吗?
可以,GitHub / Hugging Face 建议配镜像加速。
NavXD 使用建议
如果你在做带记忆、带个性化的 Agent,VitaBench 2.0 是难得的「长期 + 主动」评测尺子;它的低分也在提醒:现有模型离真正的长期个性化还有实质差距,做产品别只看短对话 demo。
// 02 核心 功能
- 核心定位快速结论 VitaBench 2.0 是美团-龙猫团队(meituan-longcat)推出的开源评测基准,主 […]
- 分类索引当前归档在 AI Agent / 智能体,方便和同频工具横向比较。
- 能力标签关联标签包括 开源、智能体、美团、评测基准、长期个性化。
- 使用入口已记录可访问入口,可通过本页主按钮跳转。
// 03 使用 场景
- 快速判断是否适合当前任务结合 AI Agent / 智能体 定位和 开源、智能体、美团 标签,先判断它是否匹配你的工作流。
- 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
- 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。
// 04 常见 问题
VitaBench 2.0 是什么?
快速结论 VitaBench 2.0 是美团-龙猫团队(meituan-longcat)推出的开源评测基准,主 […]
VitaBench 2.0 适合哪些场景?
可优先参考它所属的 AI Agent / 智能体 分类,以及 开源、智能体、美团、评测基准、长期个性化 等标签。
VitaBench 2.0 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
VitaBench 2.0 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。
