智快网
快讯 行业 产业 汽车 科技 AI+ 热点

Transformer作者新探索:8B小模型Rnj-1剑指Scaling Law,开启AI轻量化新篇

2025-12-20来源:快讯编辑:瑞雪

在人工智能领域,一场关于模型发展方向的变革正在悄然兴起。长期以来,大模型凭借庞大的参数规模和强大的计算能力占据主导地位,然而,近期由Essential AI Labs推出的Rnj-1开源模型,却以80亿参数的“小身板”,为轻量化、开放式AI探索开辟了新路径。

Rnj-1的诞生,背后有着深厚的学术底蕴。其研发团队核心成员Ashish Vaswani和Niki Parmar,正是2017年那篇具有里程碑意义的论文《注意力就是你所需要的一切》的作者。这篇论文奠定了Transformer架构的基础,如今几乎所有知名大模型,如ChatGPT、Gemini、Claude、Llama等,都采用了这一框架。可以说,他们是大模型时代的开创者之一。

然而,随着行业的发展,大模型领域逐渐陷入了“军备竞赛”的怪圈。以Google DeepMind CEO哈萨比斯为代表的观点认为,要实现通用人工智能(AGI),就必须将“扩规模”做到极致,更多数据、更多算力、更大模型成为主流追求。但Ashish Vaswani和Niki Parmar却对此提出了质疑,他们认为模型并非越大越聪明,从算力效率角度看,大模型时代或许已经接近尾声,小模型时代正悄然来临。

Rnj-1正是这种理念的实践成果。这款从零开始训练的80亿参数模型,虽然参数规模远不及那些动辄万亿的大模型,但它在多个方面展现出了强大的实力。在代码生成领域,Rnj-1 Base与Instruct在Humaneval+、MBPP+等算法类代码任务,以及BigCodeBench等更广泛的编程任务中,表现与最强同规模开源模型相当,甚至在某些情况下超越了更大的GPT OSS 20B。

在智能体能力方面,Rnj-1 Instruct表现尤为突出。在SWE-bench上,它的表现比同尺寸模型强出近一个数量级,接近大规模模型水平。它能够主动使用性能分析器检查瓶颈,提出优化方案并进行多轮迭代。在Enamel任务中,Rnj-1 Instruct超越了强力基线;在伯克利函数调用排行榜(BFCL)中,其工具使用能力也领先同类模型。

数学与科学推理能力也是Rnj-1的一大亮点。在AIME'25(高难度高中数学)中,Rnj-1 Instruct的数学能力与最强开源模型匹敌;Rnj-1 Base在Minerva-MATH上与同规模模型保持一致;在GPQA-Diamond(包含生物、物理、化学的高难度题目)上,表现也接近同尺寸模型中的领先水平。

除了性能出色,Rnj-1对量化也非常稳健。这意味着它能在更便宜、更省电的显卡上快速运行,且模型质量几乎不受影响。从BF16到FP8再到NVFP4,在显著提升提示密集型工作负载的token吞吐量的同时,模型质量依然稳定。Token吞吐量数据基于NVIDIA B200 GPU测得,其中KV Cache的数据类型设为FP8,批大小为128。

Rnj-1之所以能取得如此优异的成绩,离不开其独特的技术架构。它采用全局自注意力机制(global self-attention)和YaRN技术。全局自注意力机制就像为模型配备了一双“全景眼睛”,无论输入多长,都能一次全部看清;YaRN技术则如同“长距离阅读辅助器”,让模型在32k上下文中仍能保持清晰思考。

Essential AI Labs在研发Rnj-1的过程中,秉持着独特的理念。他们专注于基础能力的提升,认为强大的预训练本身就会产生推理能力,而不是依靠后期堆砌强化学习(RL)来补课。在早期预训练阶段,他们就观察到模型出现反思与探索式推理的迹象,这印证了“强预训练是下游成功基础”的判断。他们还通过数据分类研究,得到了一种新的“带重复惩罚的数据分布聚类与混合方法”,提升了模型在STEM(科学、技术、工程、数学)方面的能力。在优化器方面,他们证明了Muon优化器相较AdamW更高效,并开发了适配大模型的分片策略。

Rnj-1的推出,不仅为AI领域带来了新的技术思路,也在开源生态中引发了关注。当前,轻量化开源生态领域正由中国企业主导,而Essential AI的开源平台以及Rnj-1的推出,旨在推动美国AI开源领域的发展,抢夺在这一领域的话语权。这一举措有望打破“越大越好”的行业竞争格局,加速AI人人可用时代的到来,让更多人能够享受到人工智能带来的便利。

安森美携手格罗方德,借先进工艺开发GaN功率产品迎市场新需求
IT之家 12 月 19 日消息,安森美半导体昨日宣布与格罗方德半导体 (GF) 签署合作协议,将采用 GF 先进的 200mm(8英寸)eMode 硅基氮化镓 (GaN-on-Si) 工艺开发并制造先进氮…

2025-12-20

OpenAI新推GPT-5.2-Codex模型,软件工程自动化与安全性双提升
OpenAI表示,GPT-5.2-Codex旨在推进软件工程,软件工程是通过将工程原理与编程知识相结合来设计、开发、测试和维护应用程序的过程。 OpenAI表示,GPT-5.2-Codex引入的改进将对企业…

2025-12-20

联想回应与字节合作AI手机:天禧AI与豆包Agent联动,未来合作将深化
IT之家 12 月 19 日消息,今天下午,针对字节跳动与硬件厂商开展 AI 手机合作的消息,联想方面回应《科创板日报》称:公司一直在打造“天禧AI 一体多端”,给用户提供丰富的 AI 终端和 AI 场景应…

2025-12-20

一加Turbo系列来袭:9000mAh+165Hz屏 2000元档性能续航双强机
快科技12月19日消息,在一加12周年活动上,一加中国区总裁李杰预告,一加将在1月份推出一加Turbo系列。 李杰称一加Turbo系列将继承旗舰的强悍性能基因,还有引领同档的最强续航,超标普及价位段前所未见的…

2025-12-20

荣耀WIN系列来袭!骁龙双芯配万级电池 185Hz护眼屏成性能续航双料王
在2025年的最后几天,手机圈还将迎来两款非常强悍的新机,一款是小米17系列的超大杯,也就是小米17 Ultra。 不过荣耀WIN系列目前还未曝光相机参数,小智个人觉得不会太出彩,一方面是其它核心配置堆料很猛…

2025-12-20