智快网
快讯 行业 产业 汽车 科技 AI+ 热点

英伟达开源框架Polar:助力代码智能体训练,SWE-Bench分数显著提升

2026-05-29来源:快讯编辑:瑞雪

英伟达研究团队近日推出开源框架Polar,为代码智能体训练开辟新路径。该框架允许Codex、Claude Code、Qwen Code等现有智能体框架在不改变原有工具调用方式的前提下,接入GRPO(广义相对策略优化)训练体系,有效解决了传统强化学习环境适配难题。

GRPO作为面向强化学习的优化方法,通过奖励信号动态调整模型策略,使智能体在多步决策任务中逐步优化行为模式。在代码生成领域,该技术可帮助模型在真实工具调用和代码补丁提交过程中持续改进,特别适用于代码仓库修改、浏览器自动化操作等复杂长流程任务。这类任务通常依赖现成执行框架,涉及多轮工具调用、上下文管理和子智能体协作,传统方法难以直接适配强化学习环境接口。

Polar框架的创新之处在于其非侵入式设计。研究团队选择在模型API边界部署智能体,而非重构现有执行框架。这种设计避免了将智能体运行外壳(如Codex CLI、Claude Code等)改写为标准环境接口(env.init/env.step/env.reset)的高成本操作,同时完整保留了原生执行细节。实验数据显示,基于Qwen3.5-4B模型的测试中,四种代码执行框架在接入Polar后,SWE-Bench Verified的pass@1指标均获得显著提升:Codex从3.8%跃升至26.4%,Claude Code从29.8%增至34.6%,Qwen Code从34.6%提升至35.2%,Pi框架则从34.2%增长到40.4%。

系统架构方面,Polar采用双组件设计:rollout server负责任务调度、状态管理和回调处理,gateway node则管理执行全生命周期,包括运行时初始化、框架准备、轨迹构建和资源回收。通过将初始化、运行和后处理流程拆分为独立工作池,并引入READY缓冲区机制,系统实现了运行时预热与评测预热的并行执行,有效减少了长尾任务对GPU训练的阻塞。在效率优化实验中,prefix_merging技术使三个训练步骤的更新次数从1185次降至218次,墙钟时间缩短至35.2分钟(原189.5分钟),rollout GPU利用率从20.4%提升至87.7%。

该框架兼容Anthropic、OpenAI和Google风格的API请求,在请求转发过程中自动记录提示词、采样Token、对数概率和响应内容,并将这些数据重构为训练器可用的轨迹格式。这种设计既保持了与现有智能体框架的兼容性,又为强化学习训练提供了完整的数据流支持,为代码生成领域的大规模模型优化提供了新的技术范式。

HIFIMAN海菲曼2026夏季新品发布:技术革新引领HiFi新潮流,情怀传承再造经典
对HM2000声音表现起着重要作用的电源部分,也是由HIFIMAN研发团队深度定制的,体现在各功能模块的分布式电源、CPU & 存储及与之匹配的分布式核心电源处理、系统参考时钟单独提供了一组高速低噪LDO、…

2026-05-29

HIFIMAN海菲曼2026夏季新品发布:技术革新与经典传承共谱HiFi新篇
由于流媒体WiFi推流不及蓝牙点对点方便,尤其体现在随身设备上,所以这次HIFIMAN推出基于HIFISTYLE协议的智能家居HiFi音频中心HM2000平板电脑。安卓音频核心并不保真,存在SRC重取样、多声…

2026-05-29

Claude Opus4.8登场:AI学会承认不确定,工作搭档更可靠了
在对齐评估中,Opus 4.8在亲社会特质(比如尊重用户自主权、为用户利益着想)上达到了新高,而欺骗、配合滥用等「不对齐行为」的发生率大幅低于 Opus 4.7,接近Anthropic 目前对齐表现最好…

2026-05-29

德明利首推QLC UFS嵌入式存储方案,性能比肩TLC且主流容量全覆盖
IT之家 5 月 29 日消息,国内存储模组企业德明利 (TWSC) 昨日宣布推出该企业首款基于 QLC NAND 的 UFS嵌入式存储方案。该产品基于成熟的 UFS 2.2 标准,可实现比肩同类 TLC …

2026-05-29

899元入手摩托罗拉moto g100:大电池长质保,百元机里的务实之选
现在这款手机8GB+256GB版本已经跌到899元,在这个价位里,它最让我意外的不是7000mAh大电池,也不是LCD护眼屏,而是4年质保。但如果你只是想给父母买一台省心机,给孩子买一台学习备用机,或者自己…

2026-05-29

科创AIETF博时588790午盘微跌0.62% 成交额破3亿 重仓股表现分化
来源:新浪基金∞工作室 5月28日,截止午间收盘,科创AIETF博时(588790)跌0.62%,报0.966元,成交额3.05亿元。科创AIETF博时(588790)重仓股方面,芯原股份截止午盘涨4.42%…

2026-05-29

摩托罗拉Edge 70 Pro+现身跑分库 联发科天玑8500芯片性能引关注
IT之家 5 月 28 日消息,科技媒体 GSMArena 今天(5 月 28 日)发布博文,报道称摩托罗拉 Edge 70 Pro+ 手机现身GeekBench 跑分库,目前共有 3 条记录,多核最高分 …

2026-05-29