智快网
快讯 行业 产业 汽车 科技 AI+ 热点

OpenAI Codex负责人:智能体发展需去繁就简,垂直整合与技能塑造是关键

2026-02-24来源:快讯编辑:瑞雪

在近期一期备受关注的Dev Interrupted播客中,OpenAI Codex工程负责人Thibault Sottiaux深入剖析了Codex团队构建自主编程智能体的独特方法论。他抛出一个引人深思的观点:复杂的脚手架并非能力的扩展,而更像是对问题的掩盖。这一观点为当前智能体开发领域提供了全新的思考视角。

值得关注的是,播客发布不到三周,OpenClaw创始人Peter Steinberger便宣布加入OpenAI,负责下一代个人智能体项目。Steinberger此前公开表示自己是“Codex最大的免费广告”,他借助Codex构建了整个OpenClaw,使生产力大幅提升。尽管他承认Claude Opus是“最好的通用智能体”,但最终还是选择了OpenAI。这一选择背后,与Sottiaux在播客中阐述的理念高度契合,即真正的竞争力在于模型能力和垂直整合,而非外部堆砌的工程手段。

Sottiaux在播客中强调,Codex首先是一个通用智能体,产品界面是后续才考虑的要素。先专注于提升智能体的能力,再探索其应用场景,这种思路带来了意想不到的效果。社区中每周都有公司基于Codex的开源版本构建业务,且应用领域广泛,不仅限于编程,还涉及电子表格编辑、浏览器自动化等非编程领域。这充分证明了智能体的通用性,其产品形态具有极大的可变性。

对于软件工程师而言,真正的瓶颈并非代码生成,而是日常工作中的规划、沟通、代码审查以及理解系统状态等环节。当代码生成速度大幅提升后,这些环节的问题便凸显出来,成为制约整体效率的关键因素。

Codex团队处于一个独特的位置,基础模型、智能体框架和面向用户的产品都在同一组织内部。这种垂直整合带来了诸多优势。一方面,研究和工程形成双向飞轮,工程实践中的问题会影响研究方向,研究突破又会重塑工程路线图,两者相互促进。另一方面,团队可以选择在合适的层级解决问题。有些问题无需在框架中打补丁,直接在下一版模型训练中解决效果更佳。Codex团队还能在小、中、前沿模型上测试同一套系统的表现,验证整个系统是否符合预期的扩展曲线,将扩展定律从模型层面延伸到完整系统层面。

Sottiaux引用No Free Lunch定理指出,试图在所有分布上都表现智能,必然不如为特定分布专门优化。Codex的harness和model耦合训练和部署,正是针对特定分布进行优化,从而获得了单独优化任何一方都无法达到的能力提升。对于没有垂直整合条件的团队,Sottiaux认为,若想保持对所有基础模型的完全无关性,就只能基于这些模型的公共子集构建,性能必然会受到影响。他预计主流玩家最终只会为少数几个模型做深度适配。

在播客中,Sottiaux着重强调了脚手架的问题。他指出,脚手架本应是临时支撑,随着模型能力增强应逐步拆除,模型应能独立站立。然而,许多团队却将脚手架当作喷气背包,不断往里添加工具、逻辑和规则,导致系统越来越复杂。这带来了能力悬崖的风险,即框架中引入过多偏见和约束,当模型能力提升时,反而无法充分发挥新能力。而垂直整合的优势在于,Codex团队只需关注自身模型系列,每次改进都能移除部分脚手架,不用担心破坏外部因素。

Codex开源并非简单的社区建设,背后有着深层次的考量。一是破除智能体的神秘感,展示通过做好几个原语就能从模型中榨取惊人性能。二是理解开源世界将如何被改变,Codex团队认为AI解决代码生成问题后,开源的运作方式会发生根本性变化,他们想通过参与开源提前了解这种变化。三是借助社区创造力发现新用法,目前仓库有超过一千个fork,团队与fork作者合作,将好的改动移植回主仓库。

在从Type迁移到Rust的过程中,Codex团队面临了社区关系中的艰难时刻。由于迁移意味着重写代码库,此前接受了大量PR的团队面临着巨大挑战。但团队坚信未来会有大量智能体并发运行,需要高效语言,最终完成了迁移。迁移后,社区关系重新建立,一批优秀的Rust贡献者加入了核心开发。

回顾过去,Codex团队在2025年面临的最大痛点是上下文压缩。当智能体工作超出模型上下文窗口后,需要摘要已完成工作、重置上下文继续,这会导致模型丢失大量工作上下文。用提示词和框架层的启发式方法解决效果不佳,最终团队决定在模型训练层面端到端解决,现在智能体可以跨越20个上下文窗口持续工作,相关投诉几乎为零。

展望2026年,Codex团队有三个主要方向。一是多智能体网络,单智能体可靠后,今年将实现多智能体协作,产出量有望提升一到两个数量级,但同时也会面临token消耗和代码审查增加的问题。二是速度,预计模型今年将显著加速,达到智能水平与响应速度的平衡点,提升产品体验。三是协作型人格,Codex目前的交互风格被用户评价为“固执的直男工程师”,团队希望模型在协作中能给予情感确认,根据不同场景调整交互风格。

随着智能体的发展,开发者角色也在发生重塑。代码审查成为关键瓶颈,Codex团队构建的代码审查模型在OpenAI内部得到广泛应用,捕获了大量bug。智能体加速了人与人之间的协作,团队面对面交流时间增加,创意讨论和规划更多。同时,记录意图变得至关重要,团队开始构建工具追踪组织层面的变更。大型spec存在局限性,有时plan只需列出几件要做的事来验证方向。工程师的职业路径向TLM(Tech Lead Manager)演进,核心技能更像技术负责人加产品经理的混合体。新人在团队中也展现出独特优势,他们没有传统编程习惯的束缚,对新工具和新方式接受度高,能快速提高团队生产力。

Sottiaux最后给出了关于Skills的建议。这是一个开放标准,用户可以教模型用自己认为最有效的方式执行特定任务。他自己有一个QA skill,让Codex在终端里测试新功能。他比喻给智能体添加Skills就像训练宝可梦,每次交互它都在升级,逐渐建立信任关系。关键在于不要只自动化代码生成,要思考日常工作中不想做但必须做的环节,将这些交给智能体,保留编程中令人愉悦的部分,让智能体成为专属于自己工作流的搭档。

步步高“双星”OPPO与vivo:中低端趋同,高端市场vivo如何实现领跑?
而根据RD观测的2025年全年品牌价位段占比数据显示,OPPO与vivo确实非常相像,两大品牌的产品价位段市场份额呈现出高度趋同的特征。从具体数据来看,两大品牌在多个价位段的占比几乎一致: 此外,根据数据…

2026-02-23

千元机新标杆!iQOO Z10 Turbo Pro性能续航双越级,1393元颠覆想象
这台手机给我的第一印象很简单:它不像一台1393元的产品。它把性能做到了接近旗舰释放,把续航拉到了行业领先水平,再用高刷护眼屏和成熟散热体系把体验兜住。很多人说它是“中端市场的里程碑”,在我看来,这更像是一…

2026-02-23

宇树王兴兴谈机器人:技术渐趋成熟,春晚舞台展创新与未来憧憬
在这场对话中,王兴兴谈到了机器人技术的现状,尤其是关于机器人是否像一个10岁甚至更小的孩子的问题。 谈到去年春晚,宇树机器人扭秧歌的精彩表现,王兴兴表示,这一创意是在春晚导演组与宇树团队的共同商讨下…

2026-02-23

苹果用户必看!5款免费去水印工具实测,轻松搞定小红书等平台素材
无论是追求极致便捷、在微信内随时可用的“小青去水印”、“抖抖视频提取”、“坤坤去水印”这三款完全免费的小程序,还是需要处理本地文件、功能更强大的在线工具Watermark Remover,或是适合Mac电脑端…

2026-02-23

国内厂商测试“硬件级原生防窥屏” 预计9月前后迭代新旗舰将搭载该功能
IT之家 2 月 23 日消息,博主 @数码闲聊站 今日“超前瞻”爆料:「防窥屏」国内厂商也在测试中,预计是今年 9月前后的迭代新旗舰安排。博主强调,这是“硬件级原生防窥屏”。 有网友认为该功能或对手机屏幕…

2026-02-23

三星Galaxy S26 Ultra隐私屏实测:微观百叶窗+光学斜坡防窥效果显著
开启防窥前:第一道安检门是完全隐形的,因为各层之间的折射率完全一样,所有光线自由通行,旁边的人也能看清屏幕。机主的光(被提纯):那些射向正前方的光线(第二出射光 L2),不仅能顺利穿透棱镜斜坡,而且由…

2026-02-23

苹果3月2日至4日将密集发布新品 低价MacBook或成焦点至少五款齐发
【CNMO科技消息】据了解,苹果将于3月2日至4日举办为期三天的新品发布活动,与传统发布不同的是,活动或将以新闻稿发布的形式,不会举办常规主题演讲。入门款MacBook(搭载A18 Pro芯片,配备约12.9…

2026-02-23