// 01 EdgeBench 是什么

快速结论
EdgeBench(字节跳动 Seed 团队,2026-07-02 发布)是一个 AI Agent 基准,衡量的不是"静态知识",而是当 Agent 被给足时间、反馈和试错空间时,能否"从真实环境中持续学习、迭代改进"。它用超长程任务(单个任务持续 12 小时以上)来测,共 134 个任务、覆盖 6 大领域,首批公开 51 个,并附开源数据集、评测框架与研究论文(截至 2026-07)。
适合谁优先使用
- 研究 Agent 长程学习、自我迭代能力的研究者
- 要评估自家 Agent"越用越强"能力、找短板的团队
- 关注 Agent 能力随时间演进(scaling law)的从业者
- 做基准对标、选型时需要更贴近真实环境评测的人
核心能力拆解
测"从环境中学习"而非静态知识
核心命题是:给 Agent 时间、反馈和试错空间后,它能不能在真实环境里靠反馈闭环不断变强。
超长程任务
单个任务持续 12 小时以上,专门测 Agent 的迭代改进能力,而非一次性作答。
134 任务 · 6 领域
覆盖科学与 ML(39)、系统与软件工程(36)、组合优化(19)、专业知识工作(19)、形式化数学与定理证明(13)、交互式游戏与仿真(8),首批公开 51 个。
开源 + scaling 发现
提供开源数据集与评测框架、论文记录 scaling law;论文一个观察:Agent 从环境学习的速度大致每三个月翻一倍(2025-09 至 2026-05 测得)。
和同类工具怎么选
| 需求 | 优先考虑 | 判断标准 |
|---|---|---|
| 测 Agent 长程学习/自我迭代 | EdgeBench | 超长程 + 真实环境 + 反馈闭环 |
| 测静态知识/一次性作答 | MMLU 等传统基准 | 要标准化知识题 |
| 测通用 Agent 任务完成 | 其它 Agent 基准 | 看任务贴近你的场景 |
限制与避坑
- 它是基准/评测工具,不是能直接用的产品;跑起来需要相应工程与算力。
- 超长程(12h+)评测成本高,跑全套代价不小。
- 数据/许可细节以 GitHub 与论文当前说明为准(待核实)。
NavXD 使用建议
如果你在做 Agent、想知道自己的 Agent 到底会不会"越用越强"(而不只是一次性答题强),EdgeBench 这种"测环境中学习能力"的基准值得拿来对标——先跑公开的那 51 个任务看差距。只是普通选型看看结论即可,跑全套代价高。
常见问题
- EdgeBench 是产品吗?不是,是一个开源的 Agent 基准/评测集。
- 它测什么?测 Agent 在真实环境里、给足时间和反馈后能否持续学习、迭代变强。
- 谁做的?字节跳动 Seed 团队,2026-07 发布。

// 02 核心 功能
- 核心定位字节 Seed 的 Agent 基准:衡量 Agent 在真实环境中长程学习的能力,12小时+任务、134题6领域,开源。
- 分类索引当前归档在 AI Agent / 智能体,方便和同频工具横向比较。
- 能力标签关联标签包括 开源、字节跳动、Agent评测、AI基准测试、长程任务。
- 使用入口已记录可访问入口,可通过本页主按钮跳转。
// 03 使用 场景
- 快速判断是否适合当前任务结合 AI Agent / 智能体 定位和 开源、字节跳动、Agent评测 标签,先判断它是否匹配你的工作流。
- 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
- 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。
// 04 常见 问题
EdgeBench 是什么?
字节 Seed 的 Agent 基准:衡量 Agent 在真实环境中长程学习的能力,12小时+任务、134题6领域,开源。
EdgeBench 适合哪些场景?
可优先参考它所属的 AI Agent / 智能体 分类,以及 开源、字节跳动、Agent评测、AI基准测试、长程任务 等标签。
EdgeBench 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
EdgeBench 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。
