GPT-4.1编程能力飞跃，谷歌Gemini系列仍领跑AI性能榜？-科技-智快网

近期，科技领域迎来了一波新的模型发布高潮，其中OpenAI推出的GPT-4.1系列模型尤为引人注目。据bleepingcomputer报道，这一最新版本相较于其前身GPT-4o，在性能上实现了显著飞跃。

OpenAI于4月15日正式揭晓了GPT-4.1、GPT-4.1 mini及GPT-4.1 nano三款新模型。从官方公布的跑分数据来看，这些新模型在编程能力上有了质的飞跃，远远超越了GPT-4o及其小型版本GPT-4o mini。以SWE-bench Verified跑分为例，GPT-4o仅获得了21.4%的分数，而GPT-4.1则一举跃升至54.6%，展现出了强大的编程实力。

然而，尽管GPT-4.1系列模型在性能上取得了显著提升，但在与谷歌Gemini系列的对比中，却并未能占据上风。根据Stagehand发布的基准数据，Gemini 2.0 Flash在错误率和精确匹配率上均表现优异，错误率仅为6.67%，精确匹配率高达90%，且价格更为亲民，速度更快。相比之下，GPT-4.1的错误率则高达16.67%，成本更是Gemini 2.0 Flash的十倍以上。

来自哈佛大学的RNA科学家Pierre Bongrand也提供了相关数据，进一步印证了GPT-4.1在性价比方面的不足。他指出，相较于Gemini 2.0 Flash、Gemini 2.5 Pro及DeepSeek等竞品，GPT-4.1的性价比并不具备优势。

在编码专项测试中，GPT-4.1的表现同样未能让人眼前一亮。Aider Polyglot的测试结果显示，GPT-4.1的编码得分仅为52%，而谷歌的Gemini 2.5则以73%的得分遥遥领先，进一步凸显了GPT-4.1在编码能力上的不足。

值得注意的是，尽管GPT-4.1被归类为非推理模型，但其在编码能力方面依然处于行业领先地位。这一成绩无疑为OpenAI的AI研发实力提供了有力证明，同时也为未来的AI模型发展提供了更多可能性。

然而，在与谷歌Gemini系列的对比中，GPT-4.1也暴露出了自身在性价比和错误率方面的不足。这提醒我们，在AI技术的快速发展中，仍需不断追求性能与成本的平衡，以更好地满足实际应用需求。

雷蛇Project AVA选Grok AI引争议雷蛇CEO详解背后考量与安全规划

IT之家 1 月 20 日消息，雷蛇（Razer）此前发布了一款名为“ProjectAVA”的人工智能桌面设备，其核心功能是投射出一个被描述为“虚拟女友（waifu）”的全息形象。雷蛇为这款设备推出了多款…

2026-01-20

营收破亿、融资数亿，智象未来凭硬核实力在多模态赛道加速领跑

2025年，随着最新模型的开源以及vivago2.0等产品的发布，梅涛也告诉36氪，DiT（编辑注：Diffusion Transformer）架构利用Transformer的强大能力处理视频数据，让AI模型…

2026-01-20

雷蛇Project AVA选Grok AI引争议，CEO陈民亮详解背后考量

2026-01-20

科大讯飞X5Pro与热门电子书阅读器大比拼：哪款能成为你的阅读好搭档？

综合来看，科大讯飞X5Pro在功能性和实用性上表现突出，尤其是其语音转文字的功能，为用户提供了更为便利的使用体验。其他几款产品在设计和便携性上也有其优势，但在专业应用场景中，科大讯飞X5Pro无疑是更具竞争力…

2026-01-20

学习平板怎么选？科大讯飞T30 Lite等五款主流产品对比，帮你找到最优解

今天，我们将对比几款热门的学习平板，包括科大讯飞人工智能学习机T30Lite、华为MatePad11、苹果iPad9、小米平板5和荣耀平板V7Pro，帮助你找到最适合自己的学习伴侣。如果你正在寻找一款能有效提…

2026-01-20

阿里云PolarDB发布AI数据湖库等新能力推动数据库向“内生智能”进化

2026-01-20

xAI估值飙升助力，马斯克财富直逼8000亿美元里程碑

2026-01-20