DeepSWE翻译站点

7个月前更新 378 00

DeepSWE 是由 Agentica 与 Together AI 联合推出的全开源强化学习训练的编程智能体,基于 Qwen3‑32B,专注自研RL算法,达到 59% SWE‑Bench‑Verified,通过端到端代码工具调用,实现复杂软件问题自动修复,非常适合 AI 工具使用者构建高效代码助手。

站点语言:
en
收录时间:
2025-07-11
问小白

一、DeepSWE是什么

DeepSWE-Preview 是一个开放源码的强化学习编程智能体,基于 Qwen3‑32B 并采用 rLLM 框架训练,仅通过 200 步 RL 步骤,便显著提升成绩,在 SWE‑Bench‑Verified 上达 59%,创开源 LLM Agent 之最,Pass@1 达 42.2%

该智能体能理解多文件代码结构,调用 bash、致动编辑器、执行测试等工具,模拟人类软件开发全流程,自动生成、修改并验证代码。


二、研发背景与目标定位

软件工程、LLM 与 RL 的融合

过去基于 GPT 的代码生成依赖SFT,但缺乏交互并验证能力;DeepSWE探索将RL引入,直接在代码环境中通过工具调用与反馈进行训练,提升代理整体解决能力

提升真实开发表现

通过真实环境中的实际工具链训练,DeepSWE能处理更多边界情况、自我检查错误并修复,贴近真实开发者操作模式


三、技术架构与训练机制

RL+Tool 调用架构

基于R2E‑Gym 环境,DeepSWE 使用 bash、搜索、文件编辑及 finish等工具,以交互式方式完成代码修复任务

GRPO++ 算法创新

引入无KL约束、高熵探索、去除方差标准化、length norm、LOO 策略,提升 RL 稳定与长序列任务表现

测试期增强效果

运行16次 rollouts 并使用 verifier LLM 可将准确率提升至 59%,比基础模型高出约 17 点


四、性能表现

  • SWE‑Bench‑Verified:59.0%(Hybrid TTS),42.2% Pass@1

  • 对比竞品:打败OpenHands、Skywork-SWE等多款 32B 开源模型

  • 训练成本:6 天、64 张 H100;200 RL 步骤即可显著提升≧20%


五、部署方式与使用建议

推荐部署:vLLM

建议配合 vLLM(>=0.8.5)使用长上下文支持,本地推理效果良好

API 接入方式

兼容 OpenAI Chat Completion 接口,支持 Hugging Face TGI、TensorRT‑LLM 等推理框架

运行配置建议

温度设为1,max tokens >32K,使用 Agentica 推荐 prompt 和工具集配置,确保最优表现


六、适用场景与用户价值

零代码修复

可在PR中自动定位错误、生成修复代码并验证,节省人力。

多文件工程辅助

DeepSWE擅长大型项目,尤其能处理跨文件依赖、环境配置和测试验证问题。

AI助手嵌入

适合嵌入 IDE、CI/CD、ChatOps 中自动修复或建议代码更改。

研发流水线集成

可作为微服务集成至 DevOps 平台,为企业提供一键补丁能力。


七、优势分析与局限

维度优势局限与挑战
开源透明MIT + 完整 recipes 构建,促进社区扩展与复现RL 超高成本对资源要求高
真实能力效率、准确度超越自回归 SFT 模型,具备交互能力上下文处理仍受限于模型容量
工具兼容支持通用 LLM 接口 + vLLM 等系统,即插即用还不具备多 Agent 协作能力
泛用性可适配多代码库、多语言任务对定制环境/库需二次训练

八、项目生态与社区反馈

  • GitHub Agentica/rLLM 提供完整 RL post-training 框架

  • Together AI 全栈开源:模型、训练脚本、数据集和日志,共建共享

  • 社区热议:Reddit 用户称其“标志着下一代 AI Agent 进入实用阶段”


九、常见问题(FAQ)

问:DeepSWE 是免费可用的吗?
答:完全开源(MIT许可),包括模型权重、训练脚本、数据与日志

问:如何试用?
答:可在 Hugging Face Hub 上体验,也可通过 vLLM 等工具本地部署使用

问:支持哪些语言与任务?
答:目前支持调用 bash、查找、编辑、多文件环境,适用于多语言项目(Python、C++ 等)

问:硬件需求高吗?
答:建议部署使用单张或多张 GPU 配合 vLLM,推荐长期运行环境以支持长上下文。

问:适合自定义工程吗?
答:可用 rLLM 继续对 DeepSWE 进行微调,适配专属工程任务


十、总结与推荐路径

DeepSWE重塑了代码智能体训练方式,是开源 RL Agent 在软件工程问题上的突破探索。它具备:

  • 端到端代码修复能力

  • 真实 world 工具调用能力

  • 高准确率与强开源透明性

  • 广泛适用性与可扩展性

建议:

  1. 体验 Hugging Face 版本,了解模型基本行为;

  2. 本地部署使用 vLLM,测试在你项目中的表现;

  3. 结合自定义环境微调,挑战高难度工程任务;

  4. 持续关注 rLLM 和社区迭代,提升 RL agent 能力;

  5. 部署为 CI/CD 补丁助手,或集成进 IDE 实现智能编码协作。

DeepSWE是 AI工具使用者迈向智能编程自动化的重要里程碑,一款值得深度探索与集成的技术资产。

数据统计

DeepSWE访问数据评估

DeepSWE浏览人数已经达到378,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议以爱站数据为准,更多网站价值评估因素如:DeepSWE的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找DeepSWE的站长进行洽谈提供。如该站的IP、PV、UV、跳出率等!

关于DeepSWE特别声明

本站AI工具导航提供的DeepSWE页面内容基于公开资料、第三方工具目录与用户可访问信息整理,不代表官方立场,也不构成商业承诺或事实背书。内容均由chatgpt系列生成。同时,对于该外部链接的指向,不由AI工具导航实际控制,在2025年7月11日 上午1:54收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具导航不承担任何责任。

相关AI工具平替

提示词商城

暂无评论

none
暂无评论...