CURRENTVIEWING
CH最近收录AI
VIEWS8
▸ 最近收录AI · SITES

Relax SITES

面向大模型团队的强化学习后训练基础设施。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2026年6月8日更新 2026年6月8日浏览 8

// 01 Relax 是什么

面向多模态大模型后训练的异步 RL 引擎

Relax 来自 redai-infra 维护的开源项目,论文名称为《Relax: An Asynchronous Reinforcement Learning Engine for Omni-Modal Post-Training at Scale》。arXiv 页面显示论文于 2026 年 4 月 13 日提交、4 月 14 日更新,GitHub README 显示 Relax 于 2026 年 4 月 15 日开源。它不是普通 AI 应用,也不是给终端用户聊天的模型,而是面向大模型团队的强化学习后训练基础设施。

它的目标用户主要是大模型训练团队、RLHF/RLVR 工程师、多模态模型研究者、Agent 训练平台开发者,以及需要在文本、视觉、音频任务上做大规模后训练的企业。Relax 要解决的问题很底层:当模型从纯文本推理扩展到图像、视频、音频和多轮工具调用时,传统 RL 训练框架会遇到数据流复杂、GPU 利用率低、服务耦合重、Rollout 阶段耗时高和大规模训练不稳定等问题。

它解决的问题

大模型后训练通常包含采样、奖励计算、优势估计、反向训练、权重同步等多个环节。同步式框架容易让 GPU 在不同阶段互相等待,尤其是 Rollout 阶段经常占据 60%-70% 的训练时间。Relax 的思路是把 Actor、Rollout、Reference、ActorFwd、Advantages、GenRM 等角色拆成独立服务,通过 TransferQueue 和异步权重同步把训练流水线串起来,从而减少空转。

这对 Agentic RL 很重要。多轮任务不是一次生成答案就结束,而是“执行、观察、再决策”的循环。Relax 把环境、奖励函数、工具调用、视觉上下文和多轮采样放进统一训练链路,让复杂 Agent 行为可以直接参与强化学习。

核心能力

  • 支持文本、视觉和音频多模态训练,官方文档称其为 omni-modal RL training 框架。
  • 提供 Colocate、Fully Async 和 Hybrid 三种执行模式,可在显存效率、吞吐和训练新鲜度之间取舍。
  • 内置 GRPO、GSPO、SAPO 和 On-Policy Distillation,并支持可插拔奖励函数与 GenRM 模式。
  • 训练后端使用 Megatron-LM,推理侧使用 SGLang,并通过 Ray Serve、TransferQueue 和 DCS 组织分布式服务。
  • 支持 Agentic RL,多轮环境可通过 BaseInteractionEnv 定义 reset、step 和 format_observation。
  • 支持弹性 Rollout Scaling,可通过 REST API 动态增加或减少推理引擎,不必重启训练。
  • 论文报告 Relax 在 Qwen3-4B on-policy 训练上相对 veRL 获得 1.20 倍端到端加速;Fully Async 模式在 Qwen3-4B 上相对 colocate 获得 1.76 倍加速,在 Qwen3-Omni-30B 上达到 2.00 倍加速。
  • 论文还提到 Relax 支持 Qwen3-Omni 的图像、文本、音频多模态 RL 稳定收敛,并在视频任务上持续超过 2000 步无明显退化。

如何使用

Relax 是开发者和训练团队使用的开源框架,不是网页注册型 SaaS。官方推荐通过 Docker 镜像运行,因为镜像已经预装并匹配 CUDA、PyTorch、Megatron-LM、SGLang 和 Ray 等依赖。用户需要准备 GPU 服务器或多机集群,再按文档下载模型、数据集并运行训练脚本。

  1. 拉取官方 Docker 镜像 relaxrl/relax:latest。
  2. 使用 --gpus all、--ipc=host、--network=host 等参数启动容器。
  3. 在容器中克隆 redai-infra/Relax 仓库并执行 pip install -e .。
  4. 准备模型与数据集,例如 Qwen3-4B、Qwen3-VL 或 Qwen3-Omni 相关任务。
  5. 选择 Colocate、Fully Async 或 Hybrid 模式,并配置 rollout、actor、reward、staleness 等参数。
  6. 运行官方 quick start 脚本,观察 rollout、training step 和 checkpoint 输出。

典型使用场景

在数学推理后训练中,团队可以用 Relax 对 Qwen3-4B 这类文本模型做 GRPO 训练,通过规则奖励或符号验证提升推理能力。

在视觉语言任务中,Relax 可用于图像问答、视觉推理和多模态 Agent 训练。它能把视觉输入在多轮交互中持续带入训练上下文,而不是只处理单轮图文样本。

在全模态 Agent 场景中,团队可以训练能处理图像、音频、视频和工具调用的模型。例如让模型观察环境、调用工具、获得反馈,再根据奖励信号优化多轮行为。

与同类框架的差异

Relax 与 veRL、OpenRLHF、Slime、AsyncFlow 等框架的差异,在于它更强调服务化拆分、异步流水线和多模态原生支持。许多 RL 后训练框架最初围绕文本模型设计,再逐步补多模态;Relax 的论文则强调从数据预处理、模态感知并行、推理生成到训练服务都纳入多模态设计。

如果团队只是做小规模文本 RLHF,传统框架可能更简单;如果目标是大规模、多机、多模态、Agentic RL 和高吞吐后训练,Relax 的架构更值得评估。

价格与真实局限

Relax 代码采用 Apache-2.0 License 开源,没有公开商业订阅价格。实际成本主要来自 GPU 集群、存储、网络、模型权重、数据集和工程维护。它不是“免费就能低成本训练大模型”的工具,而是帮助有算力和训练需求的团队更高效地使用资源。

它的优势是异步训练、弹性 Rollout、多模态支持、Agentic RL 接口和高性能训练后端;局限是门槛很高,需要理解 Ray、Megatron、SGLang、CUDA、多机训练和 RL 算法。对于普通 AI 工具用户,Relax 没有直接使用价值;对于正在搭建大模型后训练平台的团队,它是一个很有工程参考价值的开源基础设施。

// 04 常见 问题

Relax 是什么?
面向大模型团队的强化学习后训练基础设施。
Relax 适合哪些场景?
可优先参考它所属的 最近收录AI 分类,以及 相关能力 等标签。
Relax 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
Relax 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 最近收录AI 全部