智快网
快讯 行业 产业 汽车 科技 AI+ 热点

英伟达开源框架Polar助力代码智能体训练,Qwen3.5-4B模型跑分显著提升

2026-05-29来源:快讯编辑:瑞雪

英伟达研究团队近日推出开源框架Polar,为代码智能体训练领域带来突破性进展。该框架通过创新设计,成功将Codex、Claude Code、Qwen Code等主流智能体框架与GRPO(广义相对策略优化)训练方法无缝衔接,在保持原有工具调用模式和上下文管理机制不变的前提下,显著提升模型在复杂代码任务中的表现。

GRPO作为一种先进的强化学习优化技术,通过奖励信号动态调整模型策略,特别适用于需要多步决策的复杂任务。在代码智能体训练场景中,该技术能够引导模型在真实工具调用和代码补丁提交过程中持续优化行为模式。研究团队指出,当前智能体强化学习正从单一操作向长流程任务转型,代码仓库维护、浏览器自动化等复杂场景需要模型具备多轮调用、工具协同和上下文管理能力。

传统方法在整合这些执行框架时面临重大挑战——强制改造现有接口不仅接入成本高昂,更会导致关键训练信号丢失。Polar框架采用颠覆性设计理念,通过在模型API边界部署智能代理,避免对Codex CLI等运行外壳进行结构性修改。这种设计保留了Anthropic、OpenAI等平台请求风格的原生特性,同时实现训练数据的完整采集。

系统架构层面,Polar由rollout服务器和网关节点构成核心组件。前者负责任务调度、状态管理和回调处理,后者则管控整个执行生命周期,包括环境初始化、轨迹构建和资源回收。研究团队特别开发的独立工作池机制,通过READY缓冲区实现运行时预热与评测预热的并行处理,有效减少GPU训练等待时间。

实验数据显示,基于Qwen3.5-4B基础模型,Polar配合GRPO训练在SWE-Bench Verified基准测试中取得显著突破:Codex框架的pass@1指标从3.8%跃升至26.4%,提升幅度达594.74%;其他框架也有6%-18%的不同程度提升。效率优化方面,prefix_merging技术使训练步骤更新次数减少82%,墙钟时间缩短至原来的18%,GPU利用率从20.4%大幅提升至87.7%。

这项研究为智能体强化学习提供了全新范式,其创新性的接口设计理念和系统架构优化,为处理复杂执行框架与训练环境兼容性问题开辟了新路径。开源框架的发布预计将加速代码生成、自动化运维等领域的模型优化进程。

中国激光灭蚊设备“Photon Matrix”海外爆火:精准高效,首批订单加急生产
2022年,饱受蚊子骚扰的他,萌生了打造家用激光灭蚊系统的想法。 研发之路异常艰难,因蚊子体型微小、飞行速度快,还要兼顾安全性,团队耗时近三年,攻克毫米级目标识别、多传感器融合等多项难题,甚至自建“蚊子养殖…

2026-05-29

2026安卓快充头怎么选?5款高性价比安全之选 覆盖全协议满足多场景需求
本文结合中国电子技术标准化研究院 2026 年快充产品消费趋势报告与主流快充协议标准,为大家整理了一份实用的安卓手机充电器选购指南,并推荐 5款不同定位的优质产品,满足居家、办公、差旅等多种使用场景。 作为…

2026-05-28

9000元内影像旗舰大比拼:OPPO Find X9 Ultra能否登顶旅拍之王?
它更适合追求独特设计、顶级材质和溢出性能的用户,影像能力全面但不如Find X9 Ultra那样在超长焦和视频工作流上专精。总而言之,在竞争激烈的顶级影像手机市场中,OPPO Find X9 Ultra凭借…

2026-05-28

聚焦“卡脖子”难题 沪鲁携手共促人工智能高端装备创新发展
大会以“科技赋能强基固本,协同创新破局突围”为主题,聚焦高端装备、精密部件领域技术垄断与“卡脖子”难题,通过成果展示、专家研讨、揭牌聘任、产业签约等务实环节,推动沪鲁两地科创与产业资源联动,助力高端装备产业…

2026-05-28

落点景象测量系统升级,酒泉卫星发射中心为神舟二十一号乘组“回家”护航
作为载人航天返回任务的重要测控手段,落点景象测量系统主要承担返回舱高空目标捕获、姿态检测、轨迹跟踪和实时景象回传等重要职能。搭载的红外系统还加装了多组滤光片,通过提高画面的对比度和清晰度,精准记录返回舱再入…

2026-05-28