PawBench 如何收费？

PawBench 的定价模式为：unknown。

AI 工具雷达// NavXD.v4实时

当前浏览中

频道AI Agent / 智能体

浏览量7

▸ AI Agent / 智能体 · 应用工具

PawBench 应用工具

快速结论 PawBench 是 AgentScope 团队推出的开源 AI Agent 评估基准，主打把「模型 […]

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · 中文/多语言

GitHub收藏 0

收录 2026年6月25日更新 2026年6月25日浏览 7

// 01 PawBench 是什么

快速结论

PawBench 是 AgentScope 团队推出的开源 AI Agent 评估基准，主打把「模型」和「Agent 框架（Harness）」各自的贡献拆开独立衡量。它以 MIT 协议开源，用 150 个生产环境任务（124 文本 + 26 多模态）测试不同「模型 × Harness」组合，Docker 隔离运行，自动评分与 LLM 评分混合。由国内 AgentScope 团队维护，可对接 OpenAI 兼容 API 或本地模型，代码托管在 GitHub（国内拉取建议配镜像）。

适合谁优先使用

研究、评测大模型 Agent 能力的研究者
要在多个 Agent 框架（Harness）之间做选型的团队
想分清「是模型强还是框架强」的开发者
需要可复现、可隔离运行评估流程的实验场景

核心能力拆解

模型 × Harness 解耦评估

同时换模型和换 Agent 框架，独立观察两者各自对结果的贡献，而不是把它们混在一个分数里。

150 个生产级任务

124 个文本任务 + 26 个多模态任务，贴近真实生产场景，而非纯学术题。

Docker 隔离 + 双重评分

每个任务在 Docker 容器里隔离运行，结果由自动评分与 LLM 评分混合判定，兼顾客观与语义。

在线榜单

提供可按 Harness 筛选的在线榜单（QwenPaw / OpenClaw / Hermes 等），直接对比不同组合。

和同类工具怎么选

需求	优先考虑	判断标准
独立拆解「模型 vs 框架」贡献	PawBench	要分清是模型还是 Harness 在起作用
通用 Agent 综合能力排名	GAIA / AgentBench 等	只想要一个总分榜
评测规划/推理能力	PlanningBench 等	聚焦单项能力而非组合

国内平替：AgentScope 本身即国内团队产物；通用 Agent 评测也可参考其它公开基准。

限制与避坑

需要配置模型 API（OpenAI 兼容）或本地模型，费用/算力自理
依赖 Docker 环境，偏工程化、研究向，不是开箱即用的产品
150 个任务相对聚焦，不等于覆盖全部场景
源码在 GitHub，国内拉取依赖建议配镜像或代理

常见问题

PawBench 收费吗？

开源免费（MIT 协议）。只有你接入的模型 API 按各自用量计费，本地模型则无此项。

国内能用吗？

能。由国内 AgentScope 团队维护，代码在 GitHub，国内拉取建议配镜像；支持 OpenAI 兼容 API 与本地模型部署。

它和通用 Agent 榜单有什么不同？

它刻意把模型和 Agent 框架拆开评，帮你看清提升到底来自换模型还是换框架，而非给一个混合总分。

NavXD 使用建议

做 Agent 选型或研究时，用 PawBench 能回答「我该换更强的模型，还是换更好的框架」这个关键问题；只想要一个总排名，参考通用 Agent 榜单更省事。

// 02 核心功能

核心定位快速结论 PawBench 是 AgentScope 团队推出的开源 AI Agent 评估基准，主打把「模型 […]
分类索引当前归档在 AI Agent / 智能体，方便和同频工具横向比较。
能力标签关联标签包括开源、AgentScope、基准测试、大模型评测、Agent评估。
使用入口已记录可访问入口，可通过本页主按钮跳转。

// 03 使用场景

快速判断是否适合当前任务结合 AI Agent / 智能体定位和开源、AgentScope、基准测试标签，先判断它是否匹配你的工作流。
横向比较同类工具从相同分类和标签继续探索替代工具，减少只看单个产品带来的选择偏差。
沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页，适合做选型记录或团队分享。

// 04 常见问题

PawBench 是什么？

快速结论 PawBench 是 AgentScope 团队推出的开源 AI Agent 评估基准，主打把「模型 […]

PawBench 适合哪些场景？

可优先参考它所属的 AI Agent / 智能体分类，以及开源、AgentScope、基准测试、大模型评测、Agent评估等标签。

PawBench 是否提供可用入口？

本页已记录官网或下载入口，可通过顶部主按钮访问。

PawBench 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/6968.html 官网或下载入口https://github.com/agentscope-ai/PawBench 分类与标签体系AI Agent / 智能体、开源、AgentScope、基准测试、大模型评测

SCAIL-2

快速结论 SCAIL-2 是清华大学与 Z.ai（智谱）推出的开源端到端角色动画框架，主打通过视觉条件直接传递 […]

AI 视频AI 工具

cmux

快速结论 cmux 是 Manaflow 团队推出的开源 macOS 原生终端应用，主打为「多任务 + 多 A […]

AI 编程AI 工具

WBench

快速结论 WBench 是美团 LongCat 团队与复旦大学联合推出的开源评测基准，主打对「交互式视频世界模 […]