智快网
快讯 行业 产业 汽车 科技 AI+ 热点

6位前DeepMind成员创元系统,低成本策略引领大模型推理新突破

2025-12-15来源:快讯编辑:瑞雪

在人工智能领域,一场由前Google DeepMind成员掀起的技术革新正引发广泛关注。这支6人团队成立的新公司Poetiq,通过构建元系统重新定义了大模型的应用方式,在复杂推理任务中展现出突破性表现。其研发的Gemini 3 Pro优化技术在ARC-AGI-2基准测试中以54%的准确率登顶排行榜,同时将计算成本压缩至行业最优水平的一半。

这个技术团队虽成立不足一年,却汇聚了来自DeepMind的资深专家,累计拥有53年人工智能研发经验。他们选择了一条与众不同的技术路径:不追求构建更大规模的模型,而是专注于开发能够智能调度现有模型的元系统。这种创新架构使系统能够自动生成针对特定任务的解决方案,通过组合不同模型的优势实现性能突破。

在12月8日公布的官方验证结果中,Poetiq系统在ARC-AGI-2半私有评估集上创造了新纪录。其纯Gemini配置方案以每题30.57美元的成本达成54%准确率,相比前纪录保持者Gemini 3 Deep Think(77.16美元/45%)实现双重超越。更引人注目的是,该系统在公共数据集上构建的帕累托前沿,同时推进了准确率与成本效率的边界。

技术核心在于其递归式元系统架构。该系统通过多轮交互实现自我优化:首先生成初步解决方案,再根据反馈持续改进,最终形成可靠答案。这种自我监控机制能够智能判断何时终止计算,有效避免算力浪费。测试数据显示,基于Grok-4-Fast的配置在保持高准确率的同时,成本比原始模型降低两个数量级;而开源模型GPT-OSS-120B的衍生方案,甚至实现了单题成本低于1美分的突破。

该系统的适应性在跨模型测试中得到充分验证。当应用于ChatGPT、Claude Haiku、Gemini等12个主流模型时,Poetiq均实现了准确率与成本的双重优化。这种表现源于其完全基于大语言模型的架构设计——从系统构建到运行监控,整个流程均由模型自主完成。这种递归式强化机制,使得系统能够快速整合新模型的能力,在Gemini 3和GPT-5.1发布后数小时内即完成适配并取得领先成绩。

选择ARC-AGI作为测试场源于其对复杂推理能力的严苛考验。该基准测试要求模型具备抽象推理、归纳总结和策略生成能力,恰好对应Poetiq系统的优势领域。通过让模型自主发现最优推理路径,系统能够在预算、算力等现实约束下,持续优化解决方案。这种设计理念在测试中得到充分验证:系统在处理多样化任务时展现出强大的自适应能力,能够根据任务特性动态调整模型组合策略。

技术团队透露,其开源配置旨在证明智能的本质不在于提示词工程,而在于构建能够自我进化的系统。通过多步骤验证和自我检查机制,系统能够逐步打磨解决方案,这种运行模式突破了传统大模型对提示词的依赖。随着任务多样性的增加,元系统的进化速度将进一步提升,为生成式AI在复杂场景的应用开辟新路径。

英伟达开发可视化GPU集群监控方案:助客户优化性能 无硬件追踪隐患
IT之家 12 月 14 日消息,英伟达官方本周(12 月 10 日)在官网发布博文,详细介绍正在开发的可视化 GPU集群监控方案,可帮助云服务合作伙伴计算 GPU 的正常运行时间。 IT之家在此援引官方新…

2025-12-15

搜狐文娱速递:何晴离世引缅怀,网红乱象遭整治,疯狂动物城再掀热议
12月13日,千万粉丝博主张凯毅在社交平台发视频称,丈夫在结婚时为她亲手打造的4斤重黄金凤冠,在自己办的免费展览上被人为破坏了。在发布会上,扎夫斯进行了道歉:“首先,我要向所有被我冒犯和伤害过的人,致以最诚…

2025-12-15

vivo S50系列即将登场!小屏旗舰路线,芯片影像升级有哪些亮点?
摄像头部分,vivo S50 Promini采用了索尼IMX921主摄,也就是vivo宣传的VCS仿生大底,并且也配备了800W像素超广角和索尼IMX882潜望长焦,同样是3倍变焦。 从外观设计来看,vi…

2025-12-15

GameMT新推EX5掌机:联发科G81芯片加持 5英寸1080P屏配Android系统
IT之家 12 月 14 日消息,据科技媒体 NoteBook Check 昨天报道,GameMT 现已推出 EX5掌机,配备入门级芯片,拥有一块 5 英寸 IPS LCD 屏幕,整体外观类似索尼 PS V…

2025-12-14

外观相似却有乾坤,一加 Ace 6T 凭啥低价入场中端机市场?
而这次在骁龙 8 Gen5 的超大核缓存上,高通只给了 4MB,这就意味着它的单核性能释放可能不会那么极致了。简单来说,这芯片在三角洲行动上的体验并没有比搭载骁龙8 Elite 的一加 Ace 6差多少,…

2025-12-14

宇树科技人形机器人App Store上线!一键下载动作库 轻松解锁李小龙武术等技能
这个应用商店内包含用户广场、动作库等内容,用户可以在其中自行下载各项动作和预设,一键get复杂操作。通过独家的动力学算法与动作捕捉数据,我们将李小龙(BruceLee)经典的截拳道(Jeet Kune D…

2025-12-14

2025年我国人工智能核心产业规模将超1.2万亿 加速赋能多领域发展
数据显示,今年以来,生产制造环节的大模型应用增长显著,应用案例占比由去年的19.9%增长至25.9%,带动人工智能产业规模快速增长。 为进一步促进人工智能在垂直行业领域的应用,我国已制订出台人工智能行业首个…

2025-12-14