智快网
快讯 行业 产业 汽车 科技 AI+ 热点

GPT-4.1编程能力飞跃,谷歌Gemini系列仍领跑AI性能榜?

2025-04-16来源:ITBEAR编辑:瑞雪

近期,科技领域迎来了一波新的模型发布高潮,其中OpenAI推出的GPT-4.1系列模型尤为引人注目。据bleepingcomputer报道,这一最新版本相较于其前身GPT-4o,在性能上实现了显著飞跃。

OpenAI于4月15日正式揭晓了GPT-4.1、GPT-4.1 mini及GPT-4.1 nano三款新模型。从官方公布的跑分数据来看,这些新模型在编程能力上有了质的飞跃,远远超越了GPT-4o及其小型版本GPT-4o mini。以SWE-bench Verified跑分为例,GPT-4o仅获得了21.4%的分数,而GPT-4.1则一举跃升至54.6%,展现出了强大的编程实力。

然而,尽管GPT-4.1系列模型在性能上取得了显著提升,但在与谷歌Gemini系列的对比中,却并未能占据上风。根据Stagehand发布的基准数据,Gemini 2.0 Flash在错误率和精确匹配率上均表现优异,错误率仅为6.67%,精确匹配率高达90%,且价格更为亲民,速度更快。相比之下,GPT-4.1的错误率则高达16.67%,成本更是Gemini 2.0 Flash的十倍以上。

来自哈佛大学的RNA科学家Pierre Bongrand也提供了相关数据,进一步印证了GPT-4.1在性价比方面的不足。他指出,相较于Gemini 2.0 Flash、Gemini 2.5 Pro及DeepSeek等竞品,GPT-4.1的性价比并不具备优势。

在编码专项测试中,GPT-4.1的表现同样未能让人眼前一亮。Aider Polyglot的测试结果显示,GPT-4.1的编码得分仅为52%,而谷歌的Gemini 2.5则以73%的得分遥遥领先,进一步凸显了GPT-4.1在编码能力上的不足。

值得注意的是,尽管GPT-4.1被归类为非推理模型,但其在编码能力方面依然处于行业领先地位。这一成绩无疑为OpenAI的AI研发实力提供了有力证明,同时也为未来的AI模型发展提供了更多可能性。

然而,在与谷歌Gemini系列的对比中,GPT-4.1也暴露出了自身在性价比和错误率方面的不足。这提醒我们,在AI技术的快速发展中,仍需不断追求性能与成本的平衡,以更好地满足实际应用需求。

雷蛇Project AVA选Grok AI引争议 雷蛇CEO详解背后考量与安全规划
IT之家 1 月 20 日消息,雷蛇(Razer)此前发布了一款名为“ProjectAVA”的人工智能桌面设备,其核心功能是投射出一个被描述为“虚拟女友(waifu)”的全息形象。 雷蛇为这款设备推出了多款…

2026-01-20

营收破亿、融资数亿,智象未来凭硬核实力在多模态赛道加速领跑
2025年,随着最新模型的开源以及vivago2.0等产品的发布,梅涛也告诉36氪,DiT(编辑注:Diffusion Transformer)架构利用Transformer的强大能力处理视频数据,让AI模型…

2026-01-20

雷蛇Project AVA选Grok AI引争议,CEO陈民亮详解背后考量
IT之家 1 月 20 日消息,雷蛇(Razer)此前发布了一款名为“ProjectAVA”的人工智能桌面设备,其核心功能是投射出一个被描述为“虚拟女友(waifu)”的全息形象。 雷蛇为这款设备推出了多款…

2026-01-20

科大讯飞X5Pro与热门电子书阅读器大比拼:哪款能成为你的阅读好搭档?
综合来看,科大讯飞X5Pro在功能性和实用性上表现突出,尤其是其语音转文字的功能,为用户提供了更为便利的使用体验。其他几款产品在设计和便携性上也有其优势,但在专业应用场景中,科大讯飞X5Pro无疑是更具竞争力…

2026-01-20

学习平板怎么选?科大讯飞T30 Lite等五款主流产品对比,帮你找到最优解
今天,我们将对比几款热门的学习平板,包括科大讯飞人工智能学习机T30Lite、华为MatePad11、苹果iPad9、小米平板5和荣耀平板V7Pro,帮助你找到最适合自己的学习伴侣。如果你正在寻找一款能有效提…

2026-01-20