智快网
快讯 行业 产业 汽车 科技 AI+ 热点

外围推理编排成关键!Poetiq系统助力GPT-5.2准确率创新高

2025-12-25来源:快讯编辑:瑞雪

人工智能领域近期迎来一项突破性进展:一家名为Poetiq的初创公司通过其开发的元系统(meta-system),在不改动基础大模型的前提下,显著提升了AI在复杂推理任务中的表现。实验数据显示,该系统使GPT-5.2 X-High在权威测试集ARC-AGI-2上的成绩达到75%,较此前最优模型提升约15%,同时将单题处理成本控制在8美元以内。

这项成果的核心在于Poetiq构建的迭代式推理框架。与传统AI系统直接生成答案不同,该框架通过多轮交互实现自我优化:系统首先生成初步解决方案,随后根据反馈持续改进,直至形成最终答案。这种机制特别引入了自我审计功能,能够自动判断何时已获得足够信息,从而及时终止计算过程。实验表明,这种设计不仅提升了准确性,更有效降低了资源消耗——X-High版本之所以成本更低,正是因其能更快收敛到正确解。

测试采用的PUBLIC-eval数据集包含基础推理、自然语言处理及数学推理等标准任务,而更严苛的ARC-AGI-2测试则聚焦抽象推理、常识应用和创新能力等高阶认知维度。值得关注的是,Poetiq未对任何模型进行针对性训练或优化,其系统完全通过改进推理策略实现性能跃升。这种"模型无关"的特性,使得元系统能够无缝适配不同架构的AI模型,包括Gemini 3、GPT-5.1等前沿产品。

该团队特别强调,所有适配工作均在新模型发布前完成,且系统从未接触过测试任务集。这种"零接触"下的跨版本性能提升,证明其捕捉到了推理过程的本质规律,而非依赖特定模型的特性。ARC Prize总裁Greg Kamradt评价称,若成果经得起大规模验证,这套系统将彻底改变AI应用模式——通过动态切换模型应对不同任务,无需为每个场景重新训练系统。

这项突破由六人团队完成,其中多位核心成员来自Google DeepMind。联合创始人Ian Fischer和Shumeet Baluja均拥有资深研究背景,他们开发的元系统展现出惊人的泛化能力:在保持架构不变的情况下,系统能自动适配不同模型族的认知风格,实现跨版本性能提升。这种设计哲学获得业界高度认可,有专家指出,在模型外部构建智能架构的策略,使得新模型适配时间从数周缩短至数小时,为AI技术落地开辟了新路径。

目前团队正在收集更详细的性能数据,初步统计显示简单任务可在8-10分钟内完成,而最复杂任务的计算时间控制在12小时内。对于成本优化机制,Poetiq确认X-High版本确实通过更高效的推理路径实现了性能突破。随着系统持续迭代,这种"模型之上构建智能"的范式,或将重新定义人工智能的能力边界。

OPPO Pad Air5平板正式登场:大屏长续航,购机即赠手写笔等好礼
IT之家 12 月 25 日消息,OPPO Pad Air5 平板电脑今日正式发布,售价 1899 元起,超值补贴价 1709.1 元起,今日10 点开启预售,12 月 31 日正式开售。IT之家附具体售价…

2025-12-25

iQOO Z11 Turbo或明年1月亮相,骁龙8 Gen5+7600mAh电池成亮点
【太平洋科技】12 月 25 日消息,据博主“数码闲聊站”今日爆料, 旗下新机 iQOO Z11 Turbo 暂定明年 1月登场。根据爆料信息,该机型在将搭载高骁龙 8 Gen 5,并配备一块容量高达 …

2025-12-25

苹果新动向:iPhone 17e量产在即 2026年或成性价比之选
快科技12月24日消息,今年春季,iPhone 16e正式上架,起售价是4499元。 和iPhone 16e一样,iPhone17e仍然采用LTPS OLED面板,而非iPhone 17使用的LTPO面板,…

2025-12-25

OPPO姜昱辰谈AI手机:开放合作,1月将官宣新伙伴共筑生态
这体现在两个层面,一是我们对合作的态度向来开放,核心是做好用户体验、对用户负责,最终的技术与解决方案,我们始终愿意和生态伙伴共建,这是我们一贯的立场。豆包(AI手机助手),他们没有基础用户体量,没办法做这类合…

2025-12-25