AgentCPM-Explore

3个月前发布 189 00

AgentCPM-Explore 是清华大学、人民大学、面壁智能与 OpenBMB 开源社区联合发布的 4B 参数端侧智能体模型，在多项长程智能体基准测试中取得领先表现，支持超 100 轮持续环境交互，并提供配套的开源训练与评测基础设施。

收录时间：

2026-01-17

打开网站手机查看

大模型开源工具与社区最近收录AI 自主智能系统 # 强化学习框架 # 智能体模型 # 端侧部署 # 连续交互 # 长程任务评估

AgentCPM-Explore

打开网站

平台总体概述

核心定义

AgentCPM-Explore 是一个 开源端侧智能体基础模型，参数规模约 40 亿（4B），能够在多个长程智能体基准任务中实现稳定的连续环境交互，其中包括 GAIA、HLE、BrowserComp 等评测项目。

发展背景

在智能体研究中，较大参数量模型（如 8B 以上）通常被认为具备长程任务处理能力，而 AgentCPM-Explore 通过紧凑设计与训练优化，在端侧资源限制下实现了同级甚至越级的推理表现，支持超 100 轮交互用于深度探索和策略演化。

开源生态组成

AgentCPM-Explore 的发布包括 全栈开源生态组件，涵盖以下三个主要部分：

AgentDock：工具沙盒统一管理与调度平台，支持多并发工具集成与容错机制。
AgentRL：全异步强化学习训练框架，用于训练与策略优化验证。
AgentToLeaP：一键式评测平台，可在多个智能体基准上自动执行性能评估。

核心能力结构

智能体交互能力

AgentCPM-Explore 支持超过 100 轮稳定环境交互，并通过动态策略调整与多源信息验证机制实现深度探索任务处理，适合长步推理与复杂任务。

此交互能力包括：

多步试探与搜索策略迭代
实时验证环境反馈信息
连续交互保持逻辑连贯性

长程任务评估趋势

在多项主流评测基准（如 GAIA、HLE、BrowserComp、WebWalker、Xbench-DeepResearch、Seal-0 等）中，AgentCPM-Explore 达到或超过同参数规模模型的表现，并在某些任务中表现优于参数更大的模型（如 8B~30B+）。

训练与推理基础

由 OpenBMB 社区发布的全流程训练代码包括：

基于异步强化学习优化路径
对基础模型进行长程任务具体优化
支持端侧推理部署和本地资源集成

上述设计有助于提升模型在资源受限设备上的推理效率。

技术组件详解

AgentDock 平台

AgentDock 是工具沙盒和调度管理平台，通常用于：

高并发工具服务集成
动态任务分发
容器化工具调用与负载均衡
弹性扩缩容与工具热插拔
这些机制通常有助于智能体在端侧长期运行时维持稳定性和性能。

AgentRL 异步强化学习

AgentRL 提供强化学习训练框架，用于优化智能体策略，使其在长期交互环境中能够自适应探索和行为调整。

AgentToLeaP 一键评测

AgentToLeaP 是自动化评测平台，用于在多个智能体测试基准上执行标准评估流程，并输出一致性评估结果。

应用场景

复杂长程任务

AgentCPM-Explore 适用于需要多步探索、逐步推理的复杂任务，例如多阶段决策、模拟策略演化、情境探索模拟等。

智能体开发与评估

作为开源智能体基础模型及框架环境，它可用于智能体算法研究、基准测试体系建设和新策略验证。

端侧推理部署

由于参数规模较小且资源需求较低，AgentCPM-Explore 通常可在具备 GPU 或异构计算能力的终端设备部署，用于离线或本地推理任务。

教育与实验平台

在人工智能教育与实验平台中，该模型可用于教学、探索智能体行为特性、以及教学示例构建。

如何使用

获取模型与代码

访问 GitHub 仓库：https://github.com/OpenBMB/AgentCPM
克隆项目代码并检查 Readme 文档以获取构建和依赖要求。

环境准备

安装 Python 及深度学习框架（如 PyTorch）。
安装项目依赖项并准备本地推理/训练硬件环境。

模型加载与推理

使用项目内提供的推理示例代码加载 4B 参数模型。
根据任务需求设置输入环境和任务定义。
运行交互循环收集模型响应。

训练与策略优化

使用 AgentRL 提供的训练框架配置强化学习任务。
利用 AgentToLeaP 进行评测和验证。
根据反馈调整训练超参数以提高模型表现。

常见问题（FAQ）

Q1: AgentCPM-Explore 的参数规模是多少？
A1: 该模型为 4B 参数规模，是业内首个在多个长程智能体任务上达成领先表现的端侧轻量级智能体。

Q2: 它支持多少轮连续交互？
A2: 模型支持超过 100 轮稳定环境交互，用于深度任务探索与策略调整。

Q3: 是否包含训练与评估组件？
A3: 是，开源包含 AgentDock、AgentRL、AgentToLeaP 等训练、管理与评估基础设施。

Q4: 如何在本地设备运行？
A4: 克隆 GitHub 库后，可在具备 GPU 支持的本地环境中执行推理代码。

Q5: 是否适合大规模部署？
A5: 由于参数规模较小，该模型通常适合端侧、本地及资源受限场景，而不是大规模云端部署。

术语定义

长程任务基准
衡量智能体在跨多步交互和复杂探索任务中的性能指标集，例如 GAIA、HLE、BrowserComp 等。

能力密度
即在单位参数规模或资源限制下模型表现的综合能力衡量，通常用于比较不同参数模型的效率。

数据统计