智快网
快讯 行业 产业 汽车 科技 AI+ 热点

OpenAI o3模型登场,能否成为通用人工智能新里程碑?

2024-12-21来源:ITBEAR编辑:瑞雪

在近期科技界的重大事件中,OpenAI公司的“12 Days of OpenAI”活动圆满落幕,这一活动的压轴大戏是o3系列大模型的惊艳亮相。据官方透露,o3在某些应用场景下的推理能力已逼近通用人工智能(AGI)的水平,这一消息引起了业界的广泛关注。

关于o3的命名,OpenAI首席执行官山姆·阿尔特曼在一场直播活动中给出了答案。他解释称,为了避免与英国电信运营商O2的商标产生冲突,公司决定跳过o2,直接将最新模型命名为o3。这一决定不仅彰显了OpenAI在命名上的创意,也体现了其对法律风险的谨慎考量。

o3作为o1推理模型的升级版,推出了完整版和精简版(o3-mini)两个版本。其中,o3-mini针对特定任务进行了优化,以满足不同用户的需求。然而,OpenAI并未立即全面开放这两款模型,而是先邀请安全研究人员注册测试预览版o3-mini,待测试稳定后再推出o3预览版。这一举措不仅有助于提升模型的安全性,还能为后续的全面开放打下坚实基础。

对于感兴趣的公众而言,他们可以通过OpenAI的官方网站提交申请,参与安全测试。虽然阿尔特曼并未透露o3模型的具体开放日期,但他表示o3-mini将在2025年1月底推出,随后再推出o3。这一消息无疑让众多AI爱好者充满了期待。

o3模型与主流AI模型的一个显著区别在于其事实核查功能。这一功能能够帮助o3规避一些常见的模型陷阱,但也会带来一定的响应延迟。根据推理难度的不同,延迟时间通常在几秒到几分钟之间。o3还采用了“私人思想链”进行思考,能够在响应前暂停并考虑相关提示,最终给出最准确的答案。

o3模型还具备调整推理时间的新功能,用户可以根据需要选择低、中、高三种计算级别。计算级别越高,o3的任务执行性能就越好。这一功能为用户提供了更加灵活的使用体验。

在性能方面,o3模型在多个基准测试中均表现出色。在ARC-AGI基准测试中,o3在高计算设置下获得了87.5%的分数,在低计算设置下得分为75.7%,性能是o1的三倍。在SWE-Bench Verified编程任务基准测试、Codeforces编程技能测试、2024年美国数学邀请赛以及GPQA Diamond研究生水平生物、物理和化学测试中,o3均取得了优异的成绩。

这些成绩不仅证明了o3模型的强大实力,也为其在通用人工智能领域的进一步发展奠定了坚实基础。然而,随着o3能力的不断提升,其潜在风险也日益凸显。OpenAI承诺将致力于模型安全,并与其他机构合作构建更加完善的基准测试体系,以确保o3能够在安全可控的范围内发挥最大效用。

o3的发布对于OpenAI与微软之间的合作关系也产生了重要影响。根据双方的交易条款,一旦OpenAI达到AGI水平,公司将不再有义务向微软提供其最先进的技术。这意味着o3的成功发布不仅标志着OpenAI在通用人工智能领域迈出了重要一步,也可能对其与微软的合作关系产生深远影响。

华为Mate X7或本月登场 首发20GB超大内存 配色丰富性能强劲
11月份的机圈将会是华为的主场,不仅新一代的直板旗舰华为Mate80系列会震撼亮相,还会有迭代的大折叠屏手机华为Mate X7发布。@定焦数码爆料,华为Mate X7将会首发定制20GB超大内存,这是华为史…

2025-11-15

安谋科技发布“周易”X3 NPU IP,端侧AI性能飙升助力多领域落地
智东西11月14日消息,昨日,安谋科技正式发布了专为端侧大模型而生的最新一代NPUIP——“周易”X3,其能够与Arm架构CPU、GPU协同,组成基于Arm生态的异构算力解决方案。 新的“周易”X3 NP…

2025-11-14

Steam Frame登场 Valve停产Index VR头显 开启VR新征程
用户可通过无线适配器,将 PC 或 Steam Machine 上的平面屏(flatscreen)及 VR 游戏串流至 SteamFrame;与此同时,Steam Frame 本身也是一款独立设备,搭载高通…

2025-11-14

华为Mate70 Air深度体验:打破常规,超大屏“Air”的另类演绎
可以确定,华为Mate70 Air的影像没有因为“Air”的定义做妥协,在同价位机型中是能打的,硬件配置方面也是这个思路。这也符合华为Mate70 Air的技术路径,虽然重量不可避免地来到208g,但是保…

2025-11-14

欧加9K级大电池定版试产,一加骁龙8系直屏新机测试,中端机竞争升级
IT之家 11 月 14 日消息,博主 @数码闲聊站 今天在微博透露,欧加的 9K 级别大电池现已定版试产。 博主表示,这块电池采用单块4.51V 单电芯设计,额定容量 32.59Wh,额定电池 8760m…

2025-11-14

联发科天玑8系芯片屠榜安卓次旗舰性能榜 性能能效双优成市场新宠
以榜单第一的真我Neo7 SE为例,通过与MTK联发科技的深度联合调校,该机在同价位段中展现出极为出色的游戏性能,搭配真我GT性能引擎,通过芯片级调校,实现了持久稳定的高帧率表现,同时能耗最高可降低7%,帧…

2025-11-14

四名MIT辍学00后,两年打造AI编程神器,估值冲300亿成资本新宠
两年前,在完成种子轮融资后,创始人曾写了这样的期待—— Cursor的诞生,推动了「氛围编程」(vibe coding)在全球兴起。 他还在创纪录的时间内,完成了一份手写编程测试,给早期Facebook投资…

2025-11-14

iPhone 17系列发售不到俩月,中国市场激活量破1000W,双十一销量也亮眼
11月14日,数码博主“数码闲聊站”发文透露iPhone17系列于本周完成中国市场激活1000W+。 iPhone17系列9月19日正式发售,如今距发售不到两个月。 该博主此前曾透露,截至11月2日,iPh…

2025-11-14

荣耀500 Pro配置亮点全揭秘:骁龙8至尊版+2亿主摄+8000mAh长续航
【CNMO科技消息】11月14日,有数码博主曝光了荣耀500Pro的核心参数。CNMO注意到,新机将搭载骁龙8至尊版移动平台,电池容量达到8000mAh,主打2亿像素大底主摄。 除了上述核心亮点外,荣耀50…

2025-11-14

苹果iPhone 17系列发售不到俩月 中国市场激活量或破千万
苹果 iPhone 17 系列于今年 9 月 19 日正式发售,如今还不到两个月。 该博主曾透露,截至 11 月 2 日,苹果 iPhone17 系列国内激活销量超 825 万。具体数据如下: iPho…

2025-11-14