智快网
快讯 行业 产业 汽车 科技 AI+ 热点

伯克利开源AI编程冠军DeepSWE:强化学习打造,训练细节全揭秘

2025-07-07来源:ITBEAR编辑:瑞雪

在人工智能编程领域,一场革命性的突破正在悄然发生。新晋AI编程冠军DeepSWE,凭借其纯强化学习的训练方式,在基准测试中取得了59%的准确率,这一成绩大幅刷新了现有技术的上限。

DeepSWE的诞生,打破了长期以来闭源模型在该领域的垄断地位。这款开源软件工程模型,基于Qwen3-32B架构,完全通过强化学习进行训练,无需依赖任何“老师模型”。这一创新性的训练方法,使得DeepSWE能够从零开始,逐步成长为一个性能卓越的智能体。

DeepSWE的训练过程充满了挑战与创新。它采用了模块化RL后训练框架rLLM,这一框架使得用户能够轻松构建一个由强化学习训练的AI助手,极大地简化了训练流程。同时,DeepSWE在R2E-Gym训练环境中进行训练,该环境为高质量可执行软件工程(SWE)任务提供了可扩展的管理方案。

在动作空间方面,R2E-Gym定义了包括执行Bash命令、搜索、文件编辑和完成/提交等四个工具。这些工具共同构成了DeepSWE在训练过程中的操作基础。而奖励模型则采用了一种稀疏的结果奖励模型(ORM),通过简单的“成功/失败”奖励信号,DeepSWE自发地学会了高级程序员才具备的复杂行为,如主动思考边缘案例和回归测试,以及根据任务复杂程度自适应调整思考深度。

算法方面,DeepSWE摒弃了传统的蒸馏方法,仅使用强化学习进行直接训练。研发人员独家改良的GRPO++算法,在之前的基础上进行了增强,进一步提升了模型的稳定性和性能。还整合了包括Clip High (DAPO)、无KL损失(DAPO)、无奖励标准差(Dr.GRPO)、长度归一化(Dr.GRPO)、一法(Loop/RLOO)、紧凑过滤和无熵损失在内的七个算法,共同构成了DeepSWE的训练配方。

其中,“紧凑过滤”算法对模型训练尤为关键。它不仅有效防止了训练过程中的奖励崩溃,还减少了每一步的过度思考,鼓励跨步骤的长篇推理,从而显著提升了模型的性能。

然而,训练过程中也遇到了不少挑战。特别是在扩展SWE-Bench环境时,由于需要同时启动大量Docker容器,一度导致Docker崩溃。为了解决这一问题,研发人员将Kubernetes支持集成到了R2E-Gym环境中,实现了容器的高效调度。同时,为每个服务器配备了高性能硬件,并提前下载了所需软件镜像,以确保训练过程的顺利进行。

在评估策略方面,DeepSWE采用了“测试时扩展(TTS)”策略,通过多方案生成和智能验证的方式,将性能推向了新的高度。通过扩展上下文长度和扩展代理部署两种方法,DeepSWE在SWE-Bench Verified上达到了59%的准确率,实现了新的技术上限。

DeepSWE的成功,离不开其背后的研发团队。项目负责人Michael Luo,加州大学伯克利分校电气工程与计算机科学系博士生,对人工智能和系统领域有着深入的研究。他带领的团队,凭借出色的研发能力和创新精神,成功打造了这款开源软件工程模型。

DeepSWE的诞生,标志着人工智能编程领域的一次重大突破。它不仅刷新了技术的上限,更为未来的软件开发和智能化转型提供了无限可能。

中芯国际三季度业绩亮眼:月产能破百万,全年收入或创新高
赵海军指出,中国区收入的显著增长主要受益于国内产业链自主化进程加快,为应对客户紧急需求,公司及时优化了产能分配策略。赵海军补充表示,在当前国内企业加速替代海外供应链的背景下,公司长期合作的客户成功把握了市场机…

2025-11-14

高通跃龙IQ-X系列处理器登场 助力工业PC与边缘智能场景革新发展
高通技术公司汽车、工业及嵌入式物联网事业群总经理Nakul Duggal称,高通跃龙IQ-X系列将Qualcomm Oryon CPU的计算性能引入工业PC领域,有助于提升工厂车间边缘控制器的运行能力与…

2025-11-14

第45周国内手机市场格局:苹果领跑,小米vivo紧随其后竞争激烈
据CNMO了解,截至11月2日,该系列在国内的激活数量已突破825万台,其中iPhone 17 Pro Max约395.7万台、iPhone17 Pro约246.2万台、标准版iPhone 17约172.8…

2025-11-14

W45周手机销量榜:苹果蝉联五周冠军,小米稳居国产首位,vivo紧随其后
每到周五可能大家都在等行业人士给出的最新一周国内智能手机领域排行榜,因为从周榜就可以分析出各品牌目前在国内生存状况。数据显示苹果还是国内排名第一的品牌,不过市场份额又滑落了一个百分点,这已经是苹果连续五周国内…

2025-11-14

疑似小米新款大尺寸横向阔折叠手机曝光 参数配置或迎重大升级
据CNMO了解,此前,有数码博主爆料称,小米新款大折叠手机正在测试2亿像素主摄,或采用1/1.4英寸大底高像素方案,可能支持35mm、50mm裁切光变。目前小米大折叠产品线型号为"MIX Fold",而新款…

2025-11-14

iQOO Neo11深度评测:骁龙8至尊版搭配Q2芯片,2K屏+7500mAh续航再掀性能风暴
去年的iQOO Neo10 依靠骁龙8 Gen3与1.5K屏,可谓是在2K价位段打出了一记漂亮的性能铁拳。在《王者荣耀》中,Neo11能稳定144Hz超满帧运行,帧率曲线几乎是一条直线。无论是《王者荣耀》1…

2025-11-13

一加Ace 6T新机曝光:骁龙8 Gen5加持,8000mAh大电池+超炫联名配色来袭
对此,在笔者看来,在高通骁龙8 Gen5芯片的加持下,一加Ace6T这款智能手机的综合性能是不用担心的,也即能够对标华为、小米、vivo、荣耀等厂商的中高端机型。 在续航上,爆料信息显示一加Ace 6T这款…

2025-11-13

荣耀GT2系列来袭:9000mAh大电池搭配骁龙强芯,性能续航双升级
【CNMO科技消息】11月12日,有数码博主爆料称,荣耀新款性能机GT2将搭载9000mAh超大电池和骁龙8至尊版移动平台。作为参考,现款荣耀GT Pro首批搭载了高通骁龙8至尊领先版移动平台,配合LPDD…

2025-11-12

vivo双11新机Y500 Pro来袭,2亿像素+7000mAh大电池,1799元起售
为了双11准备新手机是这几年手机行业中的惯例,这段时间手机厂商们发布的新机数量远超平时,而今年双11期间最忙碌的手机厂商是vivo,一般来说准备一款新机是常态,准备两款新机算是比较激进的,准备三款新机的就很稀…

2025-11-12