智快网
快讯 行业 产业 汽车 科技 AI+ 热点

苹果AI研究引争议:模型推理极限还是评估方法有误?

2025-06-14来源:ITBEAR编辑:瑞雪

近期,科技界围绕苹果公司发布的一篇AI研究论文展开了热烈讨论。这篇名为《思维的幻象》的论文,于6月6日问世,迅速引起了专家们的关注与争议。

论文中,苹果公司提出了一项令人瞩目的观点:即便是目前技术最前沿的大型推理模型(LRMs),在应对复杂任务时也会遭遇崩溃。这一论断立即引发了广泛讨论,其中Open Philanthropy的研究员Alex Lawsen尤为活跃,他对苹果的结论提出了详尽的反驳。

争议的焦点集中在苹果论文所提及的一个实验:在处理如汉诺塔问题这样的复杂任务时,即便是最先进的LRMs也会彻底失败。汉诺塔问题,作为一个经典的递归算法难题,要求将一系列大小不同的圆盘从一个柱子移动到另一个柱子上,过程中需遵守严格的规则。

针对苹果的这一发现,Lawsen在其反驳文章《思维的幻象之幻象》中,深入剖析了实验设计的潜在问题。他认为,苹果的研究结果更多地反映了实验设置上的缺陷,而非LRMs推理能力的根本性不足。Lawsen指出,苹果的研究混淆了输出限制与评估设置的问题,导致了对模型推理能力的误判。

为了支撑自己的观点,Lawsen提出了三大核心质疑。首先,他强调苹果忽略了模型在处理复杂任务时的Token预算限制。在处理8盘以上的汉诺塔问题时,一些模型如Anthropic的Claude Opus已接近输出极限,甚至因节省Token而停止输出。

其次,Lawsen指出苹果的“过河”测试中包含无解谜题。例如,当角色数量与船只容量限制不匹配时,模型因拒绝解答而被扣分。这一设置无疑对模型的评估造成了不公平的影响。

最后,Lawsen批评苹果的自动化评估脚本过于僵化。该脚本仅以完整步骤列表为标准,未能有效区分推理失败与输出截断的情况,导致部分策略性输出被错误地判定为失败。

为了验证自己的观点,Lawsen重新设计了汉诺塔测试。他要求模型生成递归Lua函数来打印解法,而非逐一列出所有步骤。这一改进的测试方法取得了令人惊讶的结果:Claude、Gemini和OpenAI的o3模型均能正确生成15盘问题的算法解法,远超苹果报告中所述的“零成功”界限。

基于这些发现,Lawsen得出结论:在去除人为输出限制后,LRMs在处理高复杂任务时展现出了强大的推理能力,至少在算法生成层面是如此。这表明,问题可能并不在于模型本身,而在于评估方法的选择与应用。

华为Mate X7或本月登场 首发20GB超大内存 配色丰富性能强劲
11月份的机圈将会是华为的主场,不仅新一代的直板旗舰华为Mate80系列会震撼亮相,还会有迭代的大折叠屏手机华为Mate X7发布。@定焦数码爆料,华为Mate X7将会首发定制20GB超大内存,这是华为史…

2025-11-15

安谋科技发布“周易”X3 NPU IP,端侧AI性能飙升助力多领域落地
智东西11月14日消息,昨日,安谋科技正式发布了专为端侧大模型而生的最新一代NPUIP——“周易”X3,其能够与Arm架构CPU、GPU协同,组成基于Arm生态的异构算力解决方案。 新的“周易”X3 NP…

2025-11-14

Steam Frame登场 Valve停产Index VR头显 开启VR新征程
用户可通过无线适配器,将 PC 或 Steam Machine 上的平面屏(flatscreen)及 VR 游戏串流至 SteamFrame;与此同时,Steam Frame 本身也是一款独立设备,搭载高通…

2025-11-14

华为Mate70 Air深度体验:打破常规,超大屏“Air”的另类演绎
可以确定,华为Mate70 Air的影像没有因为“Air”的定义做妥协,在同价位机型中是能打的,硬件配置方面也是这个思路。这也符合华为Mate70 Air的技术路径,虽然重量不可避免地来到208g,但是保…

2025-11-14

欧加9K级大电池定版试产,一加骁龙8系直屏新机测试,中端机竞争升级
IT之家 11 月 14 日消息,博主 @数码闲聊站 今天在微博透露,欧加的 9K 级别大电池现已定版试产。 博主表示,这块电池采用单块4.51V 单电芯设计,额定容量 32.59Wh,额定电池 8760m…

2025-11-14

联发科天玑8系芯片屠榜安卓次旗舰性能榜 性能能效双优成市场新宠
以榜单第一的真我Neo7 SE为例,通过与MTK联发科技的深度联合调校,该机在同价位段中展现出极为出色的游戏性能,搭配真我GT性能引擎,通过芯片级调校,实现了持久稳定的高帧率表现,同时能耗最高可降低7%,帧…

2025-11-14

四名MIT辍学00后,两年打造AI编程神器,估值冲300亿成资本新宠
两年前,在完成种子轮融资后,创始人曾写了这样的期待—— Cursor的诞生,推动了「氛围编程」(vibe coding)在全球兴起。 他还在创纪录的时间内,完成了一份手写编程测试,给早期Facebook投资…

2025-11-14

iPhone 17系列发售不到俩月,中国市场激活量破1000W,双十一销量也亮眼
11月14日,数码博主“数码闲聊站”发文透露iPhone17系列于本周完成中国市场激活1000W+。 iPhone17系列9月19日正式发售,如今距发售不到两个月。 该博主此前曾透露,截至11月2日,iPh…

2025-11-14

荣耀500 Pro配置亮点全揭秘:骁龙8至尊版+2亿主摄+8000mAh长续航
【CNMO科技消息】11月14日,有数码博主曝光了荣耀500Pro的核心参数。CNMO注意到,新机将搭载骁龙8至尊版移动平台,电池容量达到8000mAh,主打2亿像素大底主摄。 除了上述核心亮点外,荣耀50…

2025-11-14

苹果iPhone 17系列发售不到俩月 中国市场激活量或破千万
苹果 iPhone 17 系列于今年 9 月 19 日正式发售,如今还不到两个月。 该博主曾透露,截至 11 月 2 日,苹果 iPhone17 系列国内激活销量超 825 万。具体数据如下: iPho…

2025-11-14