当前浏览中
频道AI Agent / 智能体
浏览量10
▸ AI Agent / 智能体 · 应用工具

VitaBench 2.0 应用工具

快速结论 VitaBench 2.0 是美团-龙猫团队(meituan-longcat)推出的开源评测基准,主 […]

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · 中文/多语言
GitHub收藏 0
收录 2026年6月26日更新 2026年6月26日浏览 10

// 01 VitaBench 2.0 是什么

VitaBench 2.0 界面截图
VitaBench 2.0 · 界面预览

快速结论

VitaBench 2.0 是美团-龙猫团队(meituan-longcat)推出的开源评测基准,主打衡量大模型智能体在「长期用户交互」中的个性化和主动性。它把任务组织成按时间排列的用户序列,让偏好嵌在碎片化、异构的日常互动里,考察模型能否推断、利用并随时间更新用户偏好。以 MIT 协议开源,代码、数据集(Hugging Face)、论文(arXiv 2605.27141)齐全;国内可直连 GitHub / HF(拉取建议配镜像)。

适合谁优先使用

  • 做 Agent / 记忆 / 个性化方向的 AI 研究者
  • 想客观评估自家大模型长期个性化能力的团队
  • 研究用户偏好建模、主动交互的工程师
  • 关注 Agent 评测前沿的从业者

核心能力拆解

长期个性化评测

考察模型推断、利用并随时间更新用户偏好的能力。

主动交互考察

看模型能否识别缺失信息并主动获取。

可扩展记忆接口

支持对比不同记忆架构的表现。

真实难度

56 个用户、771 个子任务、多会话长期日常场景。

和同类工具怎么选

需求优先考虑判断标准
评测长期个性化 + 主动性VitaBench 2.0关注记忆、偏好、主动交互
评测通用 Agent 任务AgentBench 等要综合任务覆盖
评测工具调用专项工具基准只关心 tool-use

国内平替:国内大模型评测多用通用榜单,长期个性化专项基准较少。

限制与避坑

  • 这是评测基准 / 数据集,不是可直接使用的产品,面向研究者
  • 跑评测需配置待测 LLM(API / 本地)+ 下载 HF 数据集
  • 结论提醒:最强的 Claude-Opus-4.6(思维型)完整上下文也仅 ~50.3% Avg@4,别高估现有模型的长期个性化

典型工作流

跑一次评测

  1. clone 仓库并安装
  2. 从 Hugging Face 下载 VitaBench 2.0 数据集
  3. 配置待测 LLM
  4. 运行 vita run 跑评估
  5. 看 Avg@4 等指标与失败模式

常见问题

VitaBench 2.0 是什么?

评测大模型智能体长期个性化与主动性的开源基准。

谁做的?

美团-龙猫团队(meituan-longcat)。

免费吗?

MIT 协议开源,免费。

国内能用吗?

可以,GitHub / Hugging Face 建议配镜像加速。

NavXD 使用建议

如果你在做带记忆、带个性化的 Agent,VitaBench 2.0 是难得的「长期 + 主动」评测尺子;它的低分也在提醒:现有模型离真正的长期个性化还有实质差距,做产品别只看短对话 demo。

// 02 核心 功能

  • 核心定位快速结论 VitaBench 2.0 是美团-龙猫团队(meituan-longcat)推出的开源评测基准,主 […]
  • 分类索引当前归档在 AI Agent / 智能体,方便和同频工具横向比较。
  • 能力标签关联标签包括 开源、智能体、美团、评测基准、长期个性化。
  • 使用入口已记录可访问入口,可通过本页主按钮跳转。

// 03 使用 场景

  • 快速判断是否适合当前任务结合 AI Agent / 智能体 定位和 开源、智能体、美团 标签,先判断它是否匹配你的工作流。
  • 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
  • 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。

// 04 常见 问题

VitaBench 2.0 是什么?
快速结论 VitaBench 2.0 是美团-龙猫团队(meituan-longcat)推出的开源评测基准,主 […]
VitaBench 2.0 适合哪些场景?
可优先参考它所属的 AI Agent / 智能体 分类,以及 开源、智能体、美团、评测基准、长期个性化 等标签。
VitaBench 2.0 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
VitaBench 2.0 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

同频段 更多信号

查看 AI Agent / 智能体 全部