智快网
快讯 行业 产业 汽车 科技 AI+ 热点

英伟达发布开源框架Polar,助力代码智能体训练表现显著提升

2026-05-28来源:快讯编辑:瑞雪

英伟达研究团队近日推出开源框架Polar,为代码智能体训练领域带来突破性进展。该框架通过创新设计,使Codex、Claude Code、Qwen Code等主流代码智能体能够无缝接入GRPO(广义相对策略优化)训练体系,同时保持原有工具调用流程和上下文管理机制不变。

作为强化学习领域的优化方法,GRPO通过奖励信号动态调整模型策略,特别适用于需要多步决策的复杂任务。在代码智能体训练场景中,该技术能够显著提升模型在真实工具调用和代码补丁提交过程中的表现。研究团队指出,当前智能体强化学习正从单步任务向长流程任务转型,涉及代码仓库维护、浏览器自动化操作等复杂场景,这些任务高度依赖现有执行框架的多轮调用机制。

传统强化学习基础设施面临重大挑战——将智能体运行框架(如Codex CLI、Claude Code等)改写为标准环境接口(env.init/env.step/env.reset)不仅成本高昂,更会导致原生执行细节丢失。Polar框架通过革命性设计规避了这个问题:其在模型API边界处部署智能体,而非改造整个执行框架,从而完整保留了原有工具链的运行逻辑。

该框架的核心机制是在执行框架与推理服务器之间构建智能代理层,兼容Anthropic、OpenAI、Google等主流API风格。在请求转发过程中,系统会自动记录提示词、采样令牌、对数概率等关键数据,并将其重组为训练器可处理的轨迹信息。这种设计使得开发者无需修改现有工具链即可实现强化学习训练。

系统架构方面,Polar采用双组件设计:rollout server负责任务调度、会话管理和状态持久化,gateway node则掌控执行全生命周期,包括运行时初始化、框架配置、轨迹构建和资源回收。研究团队通过将初始化、运行和后处理流程拆分为独立工作池,并引入READY缓冲区机制,使运行时预热与评测预热可并行执行,有效减少了长尾任务对GPU训练的阻塞。

实验数据显示显著提升效果:以Qwen3.5-4B模型为基准,在四种代码执行框架上配合GRPO训练后,SWE-Bench Verified测试集的pass@1指标均有大幅提升。其中Codex框架表现最为突出,得分从3.8%跃升至26.4%,增幅达594.74%;其他框架提升幅度在14.4%至18.1%之间。效率优化方面,prefix_merging技术使训练步骤更新次数减少81.6%,墙钟时间缩短至原来的18%,GPU利用率从20.4%提升至87.7%。

AMD苏姿丰提前布局Zen 7:台积电A14工艺助力 2028年或携力成封装登场
IT之家 5 月 26 日消息,工商时报昨日(5 月 25 日)发布博文,报道称在 2026 台北国际电脑展(6 月 2~5 日)开幕前,AMD首席执行官苏姿丰已开始为 Zen 7 平台布局铺设供应链,预估…

2026-05-28

苹果MacBook Pro迎重大革新:OLED触控屏搭配M6芯片,旗舰新篇将启
快科技5月27日消息,据据9to5mac报道,苹果正计划于今年晚些时候或明年初推出Mac产品线史上规模最大的一次硬件重构。 新款MacBook Pro将首次在Mac产品线上采用OLED显示屏,取代现有的min…

2026-05-28

三星显示突破技术壁垒:全球首款4K 360Hz QD-OLED电脑面板下半年量产
IT之家 5 月 28 日消息,三星显示今日宣布,成功开发出全球首款兼具 4K 分辨率和 360Hz 刷新率的电脑显示器用 QD-OLED面板。 IT之家获悉,三星目前正与 10 多家全球客户洽谈其 31.…

2026-05-28

华为6月1日多线发力:鸿蒙智家AI进化,手机平板路由新品齐发
「全生态AI进化」的主题暗示新一代鸿蒙智家将在AI能力上实现重大升级。6月1日华为还将发布nova 16系列手机和MatePad Pro Max平板。华为在手机、家居、路由和平板四大产品线同步更新,鸿蒙全场景…

2026-05-28

石头科技获吸尘器主机外观专利授权,研发投入大增构建全产业链防护网
这项设计以独特的造型为核心亮点,不仅展示了公司在工业设计方面的深厚积累,还增强了其产品矩阵的差异化竞争力。其最新获权的吸尘器主机设计专利不仅优化了产品握持体验,还通过流体力学设计提升了清洁效率。 石头科技近…

2026-05-28

小米新机红米Note17R入网!6.9寸LCD屏+7000mAh电池,或首发骁龙4 Gen4
又或是运营商机型,这次的红米Note17R最大的特色就是搭载了一块LCD屏,仅凭这点就能戳中不少人的心。 当然了,一切都要看定价,这机子如果起步价在1000元以下还是有点搞头的,但我估计比较难,可能起步价会…

2026-05-28

内存成本增压、净利润下滑,小米一季度以AI与高端化破局求变
手机和AIoT分部、智能电动汽车及AI等创新业务分部一季度营收(来源:小米财报) 提及AIoT(人工智能与物联网)业务,卢伟冰将其定义为小米集团缓解内存上涨压力的战略选择,第一季度IoT与生活消费产品毛利率…

2026-05-28