智快网
快讯 行业 产业 汽车 科技 AI+ 热点

GPT-5.5实测:从“回答者”到“执行者”,AI工作新范式来了

2026-04-25来源:快讯编辑:瑞雪

OpenAI近日正式推出其最新一代人工智能模型GPT-5.5,这款被定位为“为真实工作场景量身打造”的模型,在任务执行能力上实现了重大突破。与前代产品相比,GPT-5.5不再局限于被动回答问题,而是能够主动规划并完成复杂工作流程,包括信息检索、数据分析、文档生成、软件操作以及多工具协同使用。

在基准测试中,GPT-5.5展现出显著优势。其GDPval指标(基于44种真实职业任务的评估)得分达到84.9%,较GPT-5.4提升1.9个百分点,超越Claude Opus 4.7的80.3%和Gemini 3.1 Pro的67.3%。在OSWorld测试(衡量电脑环境操作能力)中,该模型以78.7%的得分领先前代3.7个百分点,证明其具备直接执行多步骤操作的能力,包括界面点击、工具切换等。针对企业级复杂流程的Tau2 Telecom测试显示,GPT-5.5在无需额外调优的情况下取得98.0%的准确率,展现出处理多环节依赖任务的高效性。

编程能力是本次升级的核心亮点之一。在Terminal-Bench 2.0测试中,GPT-5.5取得82.7%的成绩,SWE-Bench Pro测试得分达58.6%,较前代提升显著。官方演示显示,该模型可独立完成从项目搭建到功能实现的完整开发流程:例如使用WebGL进行3D渲染、通过Vite构建项目框架,并整合ArtemisII任务的真实轨道数据。在另一个案例中,GPT-5.5不仅生成了基于Three.js的3D地牢竞技场前端代码,还覆盖了战斗系统、敌人AI等核心模块,仅将角色建模等视觉内容交由第三方工具处理。

知识工作场景的应用拓展同样引人注目。GPT-5.5可自动完成财务建模、市场分析报告生成等任务,其输出的结构化文档可直接用于商业决策。内部测试显示,超过85%的OpenAI员工每周使用该模型辅助工作,覆盖财务、市场、数据科学等多个部门。在创意领域,该模型展现出强大的跨模态能力:根据“设计高端品牌网站”的指令,其生成的HTML文件包含定制字体、响应式布局和动态交互元素;在动画创作测试中,GPT-5.5输出的SVG代码实现了复杂的Unity风格视觉效果,且所有代码均可单文件运行。

效率优化是本次升级的另一重点。尽管实际服务速度与GPT-5.4持平,但GPT-5.5在完成相同Codex任务时消耗的token减少约30%,直接降低了使用成本。其API定价为每百万输入token 5美元、输出30美元,虽较前代翻倍,但OpenAI强调,由于任务完成效率提升,总成本未必增加。安全体系方面,该模型通过了包含网络安全、生物技术等高风险领域的专项验证,并针对近200个真实场景进行了优化调整。

从技术演进路径看,GPT-5.5标志着AI模型从“问答工具”向“执行系统”的转型。自GPT-4o实现多模态统一处理以来,OpenAI持续强化模型的自主判断能力:GPT-5.3重点提升编码稳定性和工具调用自然度,GPT-5.4则优化了跨应用工作流和长任务稳定性。此次升级进一步将模型定位为后台持续运行的协作系统,用户可通过自然语言指令委托完整任务,而非分解为多个子问题。这种转变不仅提升了使用体验,更重新定义了AI在专业领域的应用标准——能否稳定高效地完成全流程工作,成为衡量模型价值的核心指标。

6000-9000元高端旗舰怎么选?四款长续航机型,OPPO Find X9 Ultra成首选
首选OPPO Find X9 Ultra:如果你想要一款在电池容量(7050mAh)、充电速度(100W+50W)、影像创新(双2亿像素+10倍光变)和综合性能上都表现出色,且没有明显短板的“水桶机”,F…

2026-04-24

SpaceX 1.75万亿美元IPO文件曝光:拟自研GPU,技术路线引猜测
值得注意的是,文件中使用的措辞是GPU而非AI专用加速器(ASIC),这一命名选择引发了业内广泛讨论。SpaceX在招股书中刻意使用GPU而非AI ASIC,是否意味着其计划设计一款与Tesla AI系列…

2026-04-24

华为Pura X Max深度体验:大阔屏新玩法,折叠屏体验跃升新境界
华为作为折叠屏产品的重要引领者和推动者,在Pura XMax身上再次实现突破,这是行业首款运用三重复合叠层结构的折叠内屏,内屏抗冲击能力相较于Mate X7得到50%的提升。 总结华为Pura X Max的…

2026-04-24

荣耀MagicBook Pro系列2026发布:续航性能双突破,AI养虾新体验来袭
发布会上,荣耀笔记本X Plus系列2026也迎来升级迭代,新品延续荣耀X系列硬核品质基因,全系采用英特尔酷睿Ultra 5 325处理器,80Wh大电池和高刷护眼的LCD雾面屏,带来更硬核、更超能的办公体…

2026-04-24

聚澜智能:以全栈自研技术铸就高品质智能手机柜,服务政企客户优选之选
这意味着其智能手机柜不仅硬件坚固耐用(如采用1.2mm加厚冷轧钢板),其核心的识别准确率高达99.9%,系统运行稳定,能有效避免错存、误取等问题。其自主研发的智能管理平台支持多柜体组网、权限分级管理、数据统计…

2026-04-24

谷歌云大会引3万人参与:TPU芯片挑战英伟达,智能体“全家桶”落地加速
在这次大会上谷歌推出了两款芯片:针对AI模型训练的TPU 8t和更适合推理任务的TPU 8i。 随后在11月,又有消息称Meta正在考虑从2027年起在其数据中心部署谷歌的TPU,价值达到数十亿美元,还可能在…

2026-04-24

AI浪潮下苹果迎转折:新CEO特努斯如何调和封闭与开放之困?
长期以来,苹果凭借对软硬件生态的严密控制建立了商业帝国,但在人工智能(AI)技术飞速迭代、开放协作成为主流的背景下,这种“控制力”正面临严峻挑战。特努斯即将面对的核心问题是:在AI时代,苹果对应用和服务的严格…

2026-04-23