// 01 PawBench 是什么

快速结论
PawBench 是 AgentScope 团队推出的开源 AI Agent 评估基准,主打把「模型」和「Agent 框架(Harness)」各自的贡献拆开独立衡量。它以 MIT 协议开源,用 150 个生产环境任务(124 文本 + 26 多模态)测试不同「模型 × Harness」组合,Docker 隔离运行,自动评分与 LLM 评分混合。由国内 AgentScope 团队维护,可对接 OpenAI 兼容 API 或本地模型,代码托管在 GitHub(国内拉取建议配镜像)。
适合谁优先使用
- 研究、评测大模型 Agent 能力的研究者
- 要在多个 Agent 框架(Harness)之间做选型的团队
- 想分清「是模型强还是框架强」的开发者
- 需要可复现、可隔离运行评估流程的实验场景
核心能力拆解
模型 × Harness 解耦评估
同时换模型和换 Agent 框架,独立观察两者各自对结果的贡献,而不是把它们混在一个分数里。
150 个生产级任务
124 个文本任务 + 26 个多模态任务,贴近真实生产场景,而非纯学术题。
Docker 隔离 + 双重评分
每个任务在 Docker 容器里隔离运行,结果由自动评分与 LLM 评分混合判定,兼顾客观与语义。
在线榜单
提供可按 Harness 筛选的在线榜单(QwenPaw / OpenClaw / Hermes 等),直接对比不同组合。
和同类工具怎么选
| 需求 | 优先考虑 | 判断标准 |
|---|---|---|
| 独立拆解「模型 vs 框架」贡献 | PawBench | 要分清是模型还是 Harness 在起作用 |
| 通用 Agent 综合能力排名 | GAIA / AgentBench 等 | 只想要一个总分榜 |
| 评测规划/推理能力 | PlanningBench 等 | 聚焦单项能力而非组合 |
国内平替:AgentScope 本身即国内团队产物;通用 Agent 评测也可参考其它公开基准。
限制与避坑
- 需要配置模型 API(OpenAI 兼容)或本地模型,费用/算力自理
- 依赖 Docker 环境,偏工程化、研究向,不是开箱即用的产品
- 150 个任务相对聚焦,不等于覆盖全部场景
- 源码在 GitHub,国内拉取依赖建议配镜像或代理
常见问题
PawBench 收费吗?
开源免费(MIT 协议)。只有你接入的模型 API 按各自用量计费,本地模型则无此项。
国内能用吗?
能。由国内 AgentScope 团队维护,代码在 GitHub,国内拉取建议配镜像;支持 OpenAI 兼容 API 与本地模型部署。
它和通用 Agent 榜单有什么不同?
它刻意把模型和 Agent 框架拆开评,帮你看清提升到底来自换模型还是换框架,而非给一个混合总分。
NavXD 使用建议
做 Agent 选型或研究时,用 PawBench 能回答「我该换更强的模型,还是换更好的框架」这个关键问题;只想要一个总排名,参考通用 Agent 榜单更省事。
// 02 核心 功能
- 核心定位快速结论 PawBench 是 AgentScope 团队推出的开源 AI Agent 评估基准,主打把「模型 […]
- 分类索引当前归档在 AI Agent / 智能体,方便和同频工具横向比较。
- 能力标签关联标签包括 开源、AgentScope、基准测试、大模型评测、Agent评估。
- 使用入口已记录可访问入口,可通过本页主按钮跳转。
// 03 使用 场景
- 快速判断是否适合当前任务结合 AI Agent / 智能体 定位和 开源、AgentScope、基准测试 标签,先判断它是否匹配你的工作流。
- 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
- 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。
