当前浏览中
频道AI Agent / 智能体
浏览量187
▸ AI Agent / 智能体 · AI 智能体

One-Eval AI 智能体

北京大学 OpenDCAI 团队开源的自动化 Agent 驱动大模型评测框架。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
GitHub收藏 0
收录 2026年5月31日更新 2026年5月31日浏览 187

// 01 One-Eval 是什么

One-Eval 界面截图
One-Eval · 界面预览

为大模型评测自动化而生

One-Eval 来自 OpenDCAI 团队在 GitHub 上开源的项目,论文《One-Eval: An Agentic System for Automated and Traceable LLM Evaluation》于 2026 年 3 月 10 日提交至 arXiv。它不是普通模型榜单,也不是单一 benchmark,而是一个 Agent 驱动的大模型自动化评测框架,目标是把“我要评测模型在某类任务上的表现”这类自然语言需求,转成可执行、可追踪、可定制的完整评测流程。

它面向的用户主要是大模型开发团队、企业模型选型人员、评测工程师、研究人员和需要做私有模型验收的技术团队。传统评测往往需要人工找 benchmark、下载数据、对齐字段、写脚本、跑指标、整理报告,One-Eval 想解决的正是这条链路里的重复劳动和不可追溯问题。

核心能力

  • 支持 NL2Eval,用户可以用自然语言描述评测目标,系统自动规划评测流程。
  • 论文中将系统拆为 NL2Bench、BenchResolve、Metrics & Reporting 等模块,分别负责意图结构化、基准解析、数据获取、字段归一化、指标选择和报告生成。
  • 项目基于 DataFlow 与 LangGraph 构建,强调图式工作流、节点状态管理和可扩展评测流程。
  • 支持 Human-in-the-Loop,在 benchmark 选择、结果审查等关键节点允许人工中断、修改和回滚。
  • 保留样本级证据链,方便调试模型失败案例,也适合企业内部评测审计。
  • GitHub 仓库显示项目采用 Apache-2.0 License,主要代码包含 Python 后端和 TypeScript 前端。
  • 官方 README 提到当前 Bench Gallery 覆盖文本类能力维度,例如 Reasoning、General Knowledge、Instruction Following,并列出 MATH、GSM8K、BBH、AIME、MMLU、CEval、CMMLU、IFEval 等示例。

如何使用

One-Eval 是开源开发者工具,不是直接在线注册使用的 SaaS。项目 README 提供了本地启动方式:先创建 Python 3.11 环境并安装项目依赖,再分别启动 FastAPI 后端和 Vite + React 前端。启动后访问本地前端页面,并在设置中配置 API、目标模型和 Hugging Face Token,用于模型调用和评测数据下载。

  1. 从 GitHub 克隆 OpenDCAI/One-Eval 仓库。
  2. 使用 Conda 或 uv 创建 Python 3.11 环境,并执行本地安装。
  3. 运行 uvicorn one_eval.server.app:app 启动后端服务。
  4. 进入 one-eval-web 目录安装前端依赖并运行开发服务。
  5. 在本地 Web 界面配置模型 API、待评测模型和 Hugging Face Token。
  6. 输入自然语言评测需求,例如评测某个模型的数学推理能力,让系统生成并执行评测流程。

典型使用场景

在模型选型阶段,团队可以用 One-Eval 快速对比多个候选模型在推理、知识、指令遵循等能力上的表现。相比手动拼接脚本,它更适合把“评测目标”转成一套可复用流程。

在私有模型验收场景中,企业可以把微调模型或自部署模型接入 One-Eval,通过统一 benchmark、统一指标和统一报告格式做回归测试,减少不同团队各跑各的造成的结果不可比问题。

在学术或工程研究中,One-Eval 的价值在于可追踪。评测过程中使用了哪些数据、字段如何映射、指标如何选择、失败样本是什么,都可以成为后续分析和复现实验的依据。

与同类工具的差异

One-Eval 与 OpenCompass、EleutherAI LM Evaluation Harness 这类工具的差异在于交互方式和自动化层级。传统评测框架更偏配置文件或命令行脚本,适合熟悉评测体系的工程师;One-Eval 更强调自然语言入口、Agent 自动规划、人机协同和报告生成。

如果团队已经有成熟评测流水线,只需要大规模稳定跑分,传统框架仍然可靠。如果团队经常面对临时评测需求、模型选型、私有模型验收或评测报告整理,One-Eval 的 NL2Eval 工作流会更省人工。

价格与使用成本

One-Eval 本身是开源项目,仓库采用 Apache-2.0 License,公开信息中没有商业订阅价格。实际成本主要来自本地部署维护、外部模型 API 调用、Hugging Face 数据访问以及评测推理所需的计算资源。对于技术团队来说,它的性价比体现在减少评测脚本编写和报告整理成本;但如果只是偶尔查看公开榜单,直接看现成榜单会更省事。

真实优势与局限

One-Eval 的优势在于把评测从“脚本工程”提升为“可交互、可审计、可复用的 Agent 工作流”。它适合需要频繁评测、需要解释结果来源、需要沉淀企业内部评测流程的团队。

局限也很明确。它仍是偏开发者和研究团队的工具,需要本地部署、配置 API 和理解 benchmark 体系。当前公开 README 也说明复杂评测场景、Agentic Evaluation、Sandbox 环境、Code 与 Text2SQL 等方向仍属于后续工作。因此,One-Eval 更适合作为自动化评测框架评估,而不适合非技术用户直接拿来做“一键排名”。

// 02 核心 功能

  • 核心定位北京大学 OpenDCAI 团队开源的自动化 Agent 驱动大模型评测框架。
  • 分类索引当前归档在 最近收录AI、AI Agent / 智能体,方便和同频工具横向比较。
  • 能力标签关联标签包括 大模型自动化评测框架。
  • 使用入口已记录可访问入口,可通过本页主按钮跳转。

// 03 使用 场景

  • 快速判断是否适合当前任务结合 最近收录AI、AI Agent / 智能体 定位和 大模型自动化评测框架 标签,先判断它是否匹配你的工作流。
  • 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
  • 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。

// 04 常见 问题

One-Eval 是什么?
北京大学 OpenDCAI 团队开源的自动化 Agent 驱动大模型评测框架。
One-Eval 适合哪些场景?
可优先参考它所属的 最近收录AI、AI Agent / 智能体 分类,以及 大模型自动化评测框架 等标签。
One-Eval 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
One-Eval 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

同频段 更多信号

查看 AI Agent / 智能体 全部