One-Eval 如何收费？

One-Eval 的定价模式为：unknown。

AI 工具雷达// NavXD.v4实时

当前浏览中

频道AI Agent / 智能体

浏览量14

▸ AI Agent / 智能体 · AI 智能体

One-Eval AI 智能体

北京大学 OpenDCAI 团队开源的自动化 Agent 驱动大模型评测框架。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

GitHub收藏 0

收录 2026年5月31日更新 2026年5月31日浏览 14

// 01 One-Eval 是什么

为大模型评测自动化而生

One-Eval 来自 OpenDCAI 团队在 GitHub 上开源的项目，论文《One-Eval: An Agentic System for Automated and Traceable LLM Evaluation》于 2026 年 3 月 10 日提交至 arXiv。它不是普通模型榜单，也不是单一 benchmark，而是一个 Agent 驱动的大模型自动化评测框架，目标是把“我要评测模型在某类任务上的表现”这类自然语言需求，转成可执行、可追踪、可定制的完整评测流程。

它面向的用户主要是大模型开发团队、企业模型选型人员、评测工程师、研究人员和需要做私有模型验收的技术团队。传统评测往往需要人工找 benchmark、下载数据、对齐字段、写脚本、跑指标、整理报告，One-Eval 想解决的正是这条链路里的重复劳动和不可追溯问题。

核心能力

支持 NL2Eval，用户可以用自然语言描述评测目标，系统自动规划评测流程。
论文中将系统拆为 NL2Bench、BenchResolve、Metrics & Reporting 等模块，分别负责意图结构化、基准解析、数据获取、字段归一化、指标选择和报告生成。
项目基于 DataFlow 与 LangGraph 构建，强调图式工作流、节点状态管理和可扩展评测流程。
支持 Human-in-the-Loop，在 benchmark 选择、结果审查等关键节点允许人工中断、修改和回滚。
保留样本级证据链，方便调试模型失败案例，也适合企业内部评测审计。
GitHub 仓库显示项目采用 Apache-2.0 License，主要代码包含 Python 后端和 TypeScript 前端。
官方 README 提到当前 Bench Gallery 覆盖文本类能力维度，例如 Reasoning、General Knowledge、Instruction Following，并列出 MATH、GSM8K、BBH、AIME、MMLU、CEval、CMMLU、IFEval 等示例。

如何使用

One-Eval 是开源开发者工具，不是直接在线注册使用的 SaaS。项目 README 提供了本地启动方式：先创建 Python 3.11 环境并安装项目依赖，再分别启动 FastAPI 后端和 Vite + React 前端。启动后访问本地前端页面，并在设置中配置 API、目标模型和 Hugging Face Token，用于模型调用和评测数据下载。

从 GitHub 克隆 OpenDCAI/One-Eval 仓库。
使用 Conda 或 uv 创建 Python 3.11 环境，并执行本地安装。
运行 uvicorn one_eval.server.app:app 启动后端服务。
进入 one-eval-web 目录安装前端依赖并运行开发服务。
在本地 Web 界面配置模型 API、待评测模型和 Hugging Face Token。
输入自然语言评测需求，例如评测某个模型的数学推理能力，让系统生成并执行评测流程。

典型使用场景

在模型选型阶段，团队可以用 One-Eval 快速对比多个候选模型在推理、知识、指令遵循等能力上的表现。相比手动拼接脚本，它更适合把“评测目标”转成一套可复用流程。

在私有模型验收场景中，企业可以把微调模型或自部署模型接入 One-Eval，通过统一 benchmark、统一指标和统一报告格式做回归测试，减少不同团队各跑各的造成的结果不可比问题。

在学术或工程研究中，One-Eval 的价值在于可追踪。评测过程中使用了哪些数据、字段如何映射、指标如何选择、失败样本是什么，都可以成为后续分析和复现实验的依据。

与同类工具的差异

One-Eval 与 OpenCompass、EleutherAI LM Evaluation Harness 这类工具的差异在于交互方式和自动化层级。传统评测框架更偏配置文件或命令行脚本，适合熟悉评测体系的工程师；One-Eval 更强调自然语言入口、Agent 自动规划、人机协同和报告生成。

如果团队已经有成熟评测流水线，只需要大规模稳定跑分，传统框架仍然可靠。如果团队经常面对临时评测需求、模型选型、私有模型验收或评测报告整理，One-Eval 的 NL2Eval 工作流会更省人工。

价格与使用成本

One-Eval 本身是开源项目，仓库采用 Apache-2.0 License，公开信息中没有商业订阅价格。实际成本主要来自本地部署维护、外部模型 API 调用、Hugging Face 数据访问以及评测推理所需的计算资源。对于技术团队来说，它的性价比体现在减少评测脚本编写和报告整理成本；但如果只是偶尔查看公开榜单，直接看现成榜单会更省事。

真实优势与局限

One-Eval 的优势在于把评测从“脚本工程”提升为“可交互、可审计、可复用的 Agent 工作流”。它适合需要频繁评测、需要解释结果来源、需要沉淀企业内部评测流程的团队。

局限也很明确。它仍是偏开发者和研究团队的工具，需要本地部署、配置 API 和理解 benchmark 体系。当前公开 README 也说明复杂评测场景、Agentic Evaluation、Sandbox 环境、Code 与 Text2SQL 等方向仍属于后续工作。因此，One-Eval 更适合作为自动化评测框架评估，而不适合非技术用户直接拿来做“一键排名”。

// 02 核心功能

核心定位北京大学 OpenDCAI 团队开源的自动化 Agent 驱动大模型评测框架。
分类索引当前归档在最近收录AI、AI Agent / 智能体，方便和同频工具横向比较。
能力标签关联标签包括大模型自动化评测框架。
使用入口已记录可访问入口，可通过本页主按钮跳转。

// 03 使用场景

快速判断是否适合当前任务结合最近收录AI、AI Agent / 智能体定位和大模型自动化评测框架标签，先判断它是否匹配你的工作流。
横向比较同类工具从相同分类和标签继续探索替代工具，减少只看单个产品带来的选择偏差。
沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页，适合做选型记录或团队分享。

// 04 常见问题

One-Eval 是什么？

北京大学 OpenDCAI 团队开源的自动化 Agent 驱动大模型评测框架。

One-Eval 适合哪些场景？

可优先参考它所属的最近收录AI、AI Agent / 智能体分类，以及大模型自动化评测框架等标签。

One-Eval 是否提供可用入口？

本页已记录官网或下载入口，可通过顶部主按钮访问。

One-Eval 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/6591.html 官网或下载入口https://github.com/OpenDCAI/One-Eval 分类与标签体系最近收录AI、AI Agent / 智能体、大模型自动化评测框架

Xiaomi-Robotics-U0

小米 38B 具身世界基础模型，统一文生图/多视角/具身视频，WorldArena 榜首，开源。

AI Agent / 智能体AI 工具

AnySearch

面向 AI Agent 的隐私优先搜索基础设施，统一 API/MCP 返回结构化结果，聚合多垂直数据源。

AI Agent / 智能体AI 工具

Agents-A1

InternScience 的 35B MoE 智能体模型，256K 上下文，开源免费。

AI Agent / 智能体AI 工具

LingBot-VA 2.0

蚂蚁系团队推出的通用机器人控制"视频-动作"世界模型，Apache 2.0 开源。

AI Agent / 智能体AI 工具

One-Eval AI 智能体

// 01 One-Eval 是什么

为大模型评测自动化而生

核心能力

如何使用

典型使用场景

与同类工具的差异

价格与使用成本

真实优势与局限

// 02 核心 功能

// 03 使用 场景

// 04 常见 问题

// 05 资料 来源

// 02 核心功能

// 03 使用场景

// 04 常见问题

// 05 资料来源