智快网
快讯 行业 产业 汽车 科技 AI+ 热点

Nature顶刊新基准:全球顶尖AI模型在“人类终极考试”中表现欠佳

2026-03-08来源:快讯编辑:瑞雪

AI技术发展日新月异,从高德纳对Claude破解难题的惊叹,到数学家陶哲轩宣称GPT-5.2 Pro解决数学难题达到博士水平,AI在各个领域不断突破。然而,在被称为“人类最后的考试”的新基准测试中,即便是最先进的AI模型也表现不佳,最高得分仅8%,这一结果引发了广泛关注。

随着AI模型能力的迅速提升,传统基准测试逐渐失去效力。大规模多任务语言理解(MMLU)等曾被视为高难度的评测,如今AI的准确率已超过90%,甚至接近“饱和”。研究人员指出,这些测试过于简单,难以真实反映AI的先进水平,更无法确保其安全性和有效性。为了应对这一挑战,全球近千名研究人员组成联盟,开发了名为“人类最后的考试”(Humanity’s Last Exam,HLE)的新基准。

HLE由AI安全中心CAIS和Scale AI团队共同开发,包含3000个极具挑战性的问题,最终筛选出2500道用于测试。这些问题覆盖数学、人文学科、自然科学、古代语言及高度专业化的子领域,旨在全面评估AI的能力。每道题都经过领先AI模型的测试,只有那些当前系统无法解答的问题才会被保留,确保测试恰好处于AI能力边界之外。

初步测试结果显示,即便是最先进的模型也难以应对HLE的挑战:GPT-4o仅得2.7%,Claude 3.5 Sonnet为4.1%,而OpenAI的旗舰模型o1也仅取得8%的成绩。这一结果凸显了HLE的高难度,也表明当前AI在复杂、专业化知识领域仍存在明显局限。

德州农工大学计算机科学与工程系副教授Tung Nguyen参与了HLE的题目撰写和完善工作,贡献了73道考题,尤其在数学和计算机科学领域撰写了大量题目。他指出,HLE的目的并非难倒人类,而是精确揭示AI目前无法完成的任务。尽管AI在传统基准测试中表现优异,但这些测试未必能衡量真正的“智能”。HLE的命名虽有玩笑成分,但其核心理念是设立一道人类对AI的终极考验——如果AI能通过,则意味着它达到了专业化人类专家的水平。

HLE的问题需要多年的专门研究才能解答,仅靠互联网数据的“猜测”无法奏效。例如,考试涵盖从核物理到古代史的广泛领域,没有人类能独自通过整个考试,但特定领域的专家可以轻松回答其专业内的问题。相比之下,AI在几乎所有类别上都表现不佳,凸显了其在深度专业知识方面的不足。

雷军展望AI时代:未来工作时长或锐减 生活质量将跃升
快科技3月7日消息,近日,全国人大代表,小米集团创始人、董事长兼CEO雷军在接受采访时表示,在人工智能时代,或许很多规则将被重写,但同时又会产生很多新的岗位。 雷军认为“未来5年或者10年,一定会有属于机器人…

2026-03-08

Redmi K50:时尚外观搭配强劲性能,高性价比成就智能机优选之选
NFC功能让手机变身为你的钱包,出行更加便捷。 Redmi K50凭借其时尚的外观、强大的性能、出色的拍照能力和人性化的系统功能,成为了性价比之王的秘密武器。如果你正在寻找一款物有所值的智能手机,那么Redm…

2026-03-08

红米K80至尊版:从2000元档第七到千元机“性价比王”,实力如何?
红米K80至尊版官方跑分大约324万分,即便实际日常使用可能略低,但用理论值计算,324万除以1736元,大约可以得到1866分左右的性价比成绩。换句话说,如果红米K80至尊版按照现在的价格进入千元档竞争,它…

2026-03-08

谷歌NotebookLM再升级!“电影化视频概览”让研究资料秒变动态大片
IT之家 3 月 7 日消息,谷歌的 AI 工具 NotebookLM 现已新增“电影化视频概览”(IT之家注:Cinematic Video Overview)功能,可将用户的研究资料和笔记自动生成动态视频…

2026-03-07

苹果M5 Pro芯片跑分数据现身GeekBench:多核性能达28111分表现亮眼
月 7 日消息,科技媒体 Wccftech 昨日(3 月 6 日)发布博文,报道称在 GeekBench 6.5 跑分库中,发现了苹果 M5Pro 芯片踪迹,单核成绩为 4242 分,多核成绩为 28111…

2026-03-07

三星Galaxy S26 Ultra首发ALoP镜头:夜景人像提升 微距能力受限
月 7 日消息,科技媒体 Android Authority 今天(3 月 7 日)发布博文,报道称三星 Galaxy S26 Ultra手机的 5 倍长焦镜头启用 ALoP(棱镜上置镜头)技术,并在营销中…

2026-03-07

vivo X300 Max原型亮相MWC 2026:6.78英寸屏+7000mAh电池成亮点
IT之家 3 月 7 日消息,消息源 Roland Quandt 于 3 月 4 日在 Bluesky发布动态,分享了一组照片,展示了在巴塞罗那召开 MWC 2026 展会期间亮相的 vivo X300Ma…

2026-03-07

三星智能眼镜新动向:摄像头与眼齐平,携手高通谷歌共拓XR新篇
Jay Kim 透露,这套方案的目标是让 AI 解读视觉输入,然后向用户返回有用的信息。 结合IT之家此前援引 AndroidAuthority 消息,三星正在研发两款智能眼镜,不带屏幕的款式有望今年上市…

2026-03-07

iPhone 17e跑分数据曝光:CPU与标准版持平,GPU性能稍逊一筹
月 7 日消息,苹果 iPhone 17e 手机的跑分现已出现在 Geekbench 数据库中,让外界得以更清楚地了解阉割版 A19芯片的真实表现。 作为参考,iPhone 17e 手机搭载的 A19 芯片…

2026-03-07