智快网
快讯 行业 产业 汽车 科技 AI+ 热点

伯克利开源AI编程冠军DeepSWE:强化学习打造,训练细节全揭秘

2025-07-07来源:ITBEAR编辑:瑞雪

在人工智能编程领域,一场革命性的突破正在悄然发生。新晋AI编程冠军DeepSWE,凭借其纯强化学习的训练方式,在基准测试中取得了59%的准确率,这一成绩大幅刷新了现有技术的上限。

DeepSWE的诞生,打破了长期以来闭源模型在该领域的垄断地位。这款开源软件工程模型,基于Qwen3-32B架构,完全通过强化学习进行训练,无需依赖任何“老师模型”。这一创新性的训练方法,使得DeepSWE能够从零开始,逐步成长为一个性能卓越的智能体。

DeepSWE的训练过程充满了挑战与创新。它采用了模块化RL后训练框架rLLM,这一框架使得用户能够轻松构建一个由强化学习训练的AI助手,极大地简化了训练流程。同时,DeepSWE在R2E-Gym训练环境中进行训练,该环境为高质量可执行软件工程(SWE)任务提供了可扩展的管理方案。

在动作空间方面,R2E-Gym定义了包括执行Bash命令、搜索、文件编辑和完成/提交等四个工具。这些工具共同构成了DeepSWE在训练过程中的操作基础。而奖励模型则采用了一种稀疏的结果奖励模型(ORM),通过简单的“成功/失败”奖励信号,DeepSWE自发地学会了高级程序员才具备的复杂行为,如主动思考边缘案例和回归测试,以及根据任务复杂程度自适应调整思考深度。

算法方面,DeepSWE摒弃了传统的蒸馏方法,仅使用强化学习进行直接训练。研发人员独家改良的GRPO++算法,在之前的基础上进行了增强,进一步提升了模型的稳定性和性能。还整合了包括Clip High (DAPO)、无KL损失(DAPO)、无奖励标准差(Dr.GRPO)、长度归一化(Dr.GRPO)、一法(Loop/RLOO)、紧凑过滤和无熵损失在内的七个算法,共同构成了DeepSWE的训练配方。

其中,“紧凑过滤”算法对模型训练尤为关键。它不仅有效防止了训练过程中的奖励崩溃,还减少了每一步的过度思考,鼓励跨步骤的长篇推理,从而显著提升了模型的性能。

然而,训练过程中也遇到了不少挑战。特别是在扩展SWE-Bench环境时,由于需要同时启动大量Docker容器,一度导致Docker崩溃。为了解决这一问题,研发人员将Kubernetes支持集成到了R2E-Gym环境中,实现了容器的高效调度。同时,为每个服务器配备了高性能硬件,并提前下载了所需软件镜像,以确保训练过程的顺利进行。

在评估策略方面,DeepSWE采用了“测试时扩展(TTS)”策略,通过多方案生成和智能验证的方式,将性能推向了新的高度。通过扩展上下文长度和扩展代理部署两种方法,DeepSWE在SWE-Bench Verified上达到了59%的准确率,实现了新的技术上限。

DeepSWE的成功,离不开其背后的研发团队。项目负责人Michael Luo,加州大学伯克利分校电气工程与计算机科学系博士生,对人工智能和系统领域有着深入的研究。他带领的团队,凭借出色的研发能力和创新精神,成功打造了这款开源软件工程模型。

DeepSWE的诞生,标志着人工智能编程领域的一次重大突破。它不仅刷新了技术的上限,更为未来的软件开发和智能化转型提供了无限可能。

华为鸿蒙6系统登场:流畅度大幅提升,跨生态互传成亮点,用户体验全面升级
就在刚刚,华为HarmonyOS 6 正式亮相,这次流畅度直接暴增40%,用余承东的话来说,体验就像换了新手机。接下来就是AI了,作为当下大厂都在卷的能力,这次鸿蒙直接自带 “智能体”。 10 月 22 …

2025-10-23

2025旗舰手机怎么选?荣耀Magic8系列凭全能实力成热门之选
从性能表现到AI体验,再到影像与设计,Magic8系列用实际体验证明了它为何能被列为“最好旗舰”的代表。更重要的是,Magic8在手感上做了细腻优化,机身弧线与掌心贴合,带来更舒适的握持体验。对那些追求稳定性…

2025-10-23

华为鸿蒙6系统新突破:支持与苹果设备“碰一碰”互传文件,个性化功能升级
值得注意的是,鸿蒙操作系统6还可以通过简单的“碰一碰”轻松分享照片、音乐、链接等丰富内容。与大部分国产智能厂商类似,为了增加和苹果生态的协同性,鸿蒙操作系统6可以通过碰一碰和iOS、iPadOS、macOS设…

2025-10-22

鸿蒙操作系统5问世一年终端破2300万,6代系统今日下午将正式登场
2025年10月22日,华为召开鸿蒙操作系统6发布会,发布会一开始,华为常务董事、终端BG董事长余承东对外表示,鸿蒙操作系统5终端数量突破2300万。 据了解,鸿蒙操作系统5是华为于2024年10月22日推出…

2025-10-22

性能旗舰之争:荣耀Magic8凭软硬件协同优势成今年热门之选
荣耀Magic8的影像系统结合AI算力,在长焦、夜景、人像等场景中都有显著提升。 对于正在考虑入手一款顶级旗舰的用户而言,荣耀Magic8无疑是今年最值得关注的答案——在众多高性能机型中,它以稳、快、智的综合…

2025-10-22

售价13000元!三星Galaxy XR头显发布 直面苹果Vision Pro高端之争
【CNMO科技消息】10月21日,三星正式发布了其首款混合现实头戴设备——GalaxyXR,官方售价定为1799.99美元(约合人民币13000元),直接瞄准了苹果Vision Pro的高端市场。借助头显的…

2025-10-22

真我GT8 Pro深度体验:影像创新联动理光GR,性能越级再升级
使用真我GT8 Pro拍摄后就会发现,它可以说是把理光GR的整套理念和色彩科学都塞进了手机里。 长焦还上了2亿像素1/1.56英寸大底潜望,在3倍、6倍和12倍变焦下,画质都有很高可用性,也是长焦街拍的很好补…

2025-10-22

AMD驱动优化显成效!RX 9070与RTX 5070实测对比,性能差距扩大至13%
Hardware Unboxed(HU)的最新测试结果,再次印证了这一说法:Radeon RX9070在最新的驱动和游戏补丁加持下,性能差距与竞争对手RTX 5070明显扩大。 即使加入各自的超分技术,R…

2025-10-22

性能狂飙无上限!一加15携六大行业首创技术震撼登场
行业首发冰河超临界气凝胶,航天级隔热材料,有效隔绝指尖温度; 行业首发冰河VC散热,超薄手撕钢材料,散热速度快两倍; 除此以外,一加15还拥有独家自研冰河芯片空调架构,可降低芯片核心区温度,同时安卓首批全新…

2025-10-22

iQOO 15今晚登场:以跨代理念重塑性能旗舰,带来极致体验盛宴
iQOO 15以“跨代领先”为核心理念,在电竞体验、视觉观感、影像能力和续航表现等方面实现全方位突破,为追求极致的用户带来前所未有的使用体验。从电竞性能到视觉观感,从影像能力到续航表现,iQOO 15以全方…

2025-10-22