// 01 AReaL 2.0 是什么

快速结论
AReaL 2.0(AReaL Team)是一套开源的 agentic 强化学习(RL)训练框架,专注于用强化学习训练 AI Agent。它内置 PPO、GRPO、DPO 等主流算法,支持异步 RL、超大 Mixture-of-Experts(MoE)模型微调,并自带 Archon —— 一个 PyTorch 原生的训练引擎。支持多种硬件后端(含昇腾 Ascend NPU),面向做 Agent / 大模型 RL 训练的研究与工程团队(截至 2026-07)。
适合谁优先使用
- 做大模型 / Agent 强化学习训练的研究者与算法工程师
- 需要异步 RL、超大 MoE 微调等进阶能力的团队
- 在昇腾 NPU 等国产算力上做训练、要框架支持的团队
- 想要开源、可定制 Agent 训练流程的实验室
核心能力拆解
多算法 RL 训练
内置 PPO、GRPO、DPO 及相关算法,覆盖在线 RL 训练、评估、checkpoint、指标追踪与自定义 Agent 工作流开发。
异步 RL + 超大 MoE 微调
支持异步强化学习方案,以及对超大 Mixture-of-Experts 模型的微调,面向前沿规模的训练需求。
Archon 训练引擎
自带 PyTorch 原生的训练引擎 Archon,配套内存优化(OOM 处理)、性能剖析与调试指引。
多硬件后端
支持标准安装及昇腾 NPU 等专用处理器,兼顾不同算力环境。
和同类工具怎么选
| 需求 | 优先考虑 | 判断标准 |
|---|---|---|
| agentic RL、异步、MoE、国产算力 | AReaL 2.0 | 算法全 + 昇腾支持 + Archon 引擎 |
| 通用 RLHF / 对齐训练 | 各大开源 RLHF 框架 | 看生态成熟度与你的算力栈 |
| 只做推理 / 不训练 | 推理框架(vLLM 等) | 不需要训练能力 |
限制与避坑
- 面向有 RL 训练经验的团队,需要相应算力与工程能力,非开箱即用产品。
- 许可条款、具体基准表现以 GitHub 仓库当前说明为准(待核实)。
- 国产算力(昇腾)路径的适配细节,建议按官方文档实测确认。
NavXD 使用建议
如果你在做 Agent / 大模型的强化学习训练、又需要异步 RL 或超大 MoE 微调,尤其还想在昇腾等国产算力上跑,AReaL 2.0 值得作为框架候选评估。只做推理或不涉及训练的,用不上它。
常见问题
- AReaL 免费吗?开源项目,代码免费;训练所需算力另算。
- 支持国产算力吗?官方说明支持昇腾 Ascend NPU 安装。
- 它跟推理框架有啥区别?AReaL 是"训练"框架(用 RL 训 Agent),不是跑推理的。

// 02 核心 功能
- 核心定位开源 agentic 强化学习训练框架:PPO/GRPO/DPO + 异步 RL + MoE 微调,含 Archon 引擎。
- 分类索引当前归档在 AI Agent / 智能体,方便和同频工具横向比较。
- 能力标签关联标签包括 强化学习、RLHF、Agent训练、大模型训练、开源框架。
- 使用入口已记录可访问入口,可通过本页主按钮跳转。
// 03 使用 场景
- 快速判断是否适合当前任务结合 AI Agent / 智能体 定位和 强化学习、RLHF、Agent训练 标签,先判断它是否匹配你的工作流。
- 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
- 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。
// 04 常见 问题
AReaL 2.0 是什么?
开源 agentic 强化学习训练框架:PPO/GRPO/DPO + 异步 RL + MoE 微调,含 Archon 引擎。
AReaL 2.0 适合哪些场景?
可优先参考它所属的 AI Agent / 智能体 分类,以及 强化学习、RLHF、Agent训练、大模型训练、开源框架 等标签。
AReaL 2.0 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
AReaL 2.0 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。
