智快网
快讯 行业 产业 汽车 科技 AI+ 热点

英伟达发布开源框架Polar,助力代码智能体训练效率与表现双提升

2026-05-28来源:快讯编辑:瑞雪

英伟达研究团队近日推出开源框架Polar,为代码智能体训练领域带来突破性进展。该框架通过创新设计,使Codex、Claude Code、Qwen Code等主流代码智能体能够无缝接入GRPO(广义相对策略优化)训练体系,同时保持原有工具调用方式和开发流程不变。

GRPO作为一种强化学习优化方法,通过奖励信号动态调整模型策略,特别适用于需要多步决策的复杂任务。在代码智能体训练场景中,该技术可使模型在真实工具调用和代码补丁提交过程中持续优化表现。研究团队指出,当前智能体强化学习正从单一任务向长流程任务转型,涉及代码仓库维护、浏览器自动化操作等复杂场景,这些任务高度依赖现有执行框架,传统改造方式往往导致关键训练信号丢失。

Polar框架的创新之处在于其独特的训练边界设计。不同于传统方法对执行框架的全面改造,该框架在模型API边界处部署智能体,最大限度保留原有开发环境(harness)的完整性。这种设计兼容Anthropic、OpenAI、Google等主流API风格,通过记录请求提示词、采样令牌、对数概率等关键数据,构建完整的训练轨迹。

系统架构方面,Polar采用双组件设计:rollout server负责任务调度、状态管理和回调处理,gateway node则管理会话全生命周期,包括框架初始化、轨迹构建和资源回收。研究团队特别优化了任务处理流程,将初始化、运行和后处理阶段分离到独立工作池,配合READY缓冲区机制,使GPU训练效率提升显著。

实验数据显示,基于Qwen3.5-4B模型的测试中,Polar配合GRPO训练使四种代码执行框架的性能获得显著提升:在SWE-Bench Verified基准测试中,Codex框架的pass@1分数从3.8%跃升至26.4%,增幅达594.74%;其他框架也有6%-18%的不同程度提升。效率优化方面,prefix_merging技术使训练步骤更新次数减少82%,墙钟时间缩短至原来的18%,GPU利用率提升至87.7%。

三星显示突破技术壁垒:全球首款4K 360Hz QD-OLED电脑面板下半年量产
IT之家 5 月 28 日消息,三星显示今日宣布,成功开发出全球首款兼具 4K 分辨率和 360Hz 刷新率的电脑显示器用 QD-OLED面板。 IT之家获悉,三星目前正与 10 多家全球客户洽谈其 31.…

2026-05-28

微信Windows与Mac端4.1.10版更新:“边写边译”功能登场,交流更便捷
此次微信电脑端4.1.10正式版上线后,边写边译终于来到Windows和Mac平台。默认情况下,该功能会将内容翻译成英文,如需切换其他语言,可点击输入框左上角的“英文”图标进行选择。 目前,微信电脑端“边…

2026-05-28

2026购机不再愁!高性价比机型推荐,续航流畅防护全搞定
华为畅享 90 Pro Max凭借自研芯片与鸿蒙系统的深度适配、8500mAh 巨鲸级长效续航、全套国际及国内专业权威认证、全场景 AI安全防护体系,在千元档位中拥有稳固的综合实力,是 2026 年购机参考…

2026-05-28

2026年6月3000-4000元手机怎么选?荣耀600系列领衔多款机型推荐
作为3000到4000元档最值得入手的旗舰机型,荣耀600系列在ID设计、影像、屏幕、续航等维度实现了全方位创新升级。 RedmiK80以2499元起的售价,提供了第三代骁龙8旗舰芯片和2K 120Hz …

2026-05-28

2026年vivo手机怎么选?五款旗舰深度横评,帮你找到最适合的那款
性能党:iQOO Neo11>15 Ultra(差价500元换更强散热) 摄影爱好者:S50 16+512版(长焦夜景噪点控制更优)户外达人:Y600Pro(三防+卫星通信不可替代) 颜值控:S50「告…

2026-05-28

华为nova 16系列来袭!时代少年团代言,十周年力作颜值续航双在线
快科技5月26日消息,有博主发布视频,时代少年团队长马嘉祺在录制节目时展示了自己正在使用的新手机,正是还没发布的华为nova 16系列。据此前披露的信息,华为nova 16系列由人气组合时代少年团担任品牌代…

2026-05-27