Transformer作者新探索：8B小模型Rnj-1剑指Scaling Law，开启AI轻量化新篇-汽车-智快网

在人工智能领域，一场关于模型发展方向的变革正在悄然兴起。长期以来，大模型凭借庞大的参数规模和强大的计算能力占据主导地位，然而，近期由Essential AI Labs推出的Rnj-1开源模型，却以80亿参数的“小身板”，为轻量化、开放式AI探索开辟了新路径。

Rnj-1的诞生，背后有着深厚的学术底蕴。其研发团队核心成员Ashish Vaswani和Niki Parmar，正是2017年那篇具有里程碑意义的论文《注意力就是你所需要的一切》的作者。这篇论文奠定了Transformer架构的基础，如今几乎所有知名大模型，如ChatGPT、Gemini、Claude、Llama等，都采用了这一框架。可以说，他们是大模型时代的开创者之一。

然而，随着行业的发展，大模型领域逐渐陷入了“军备竞赛”的怪圈。以Google DeepMind CEO哈萨比斯为代表的观点认为，要实现通用人工智能（AGI），就必须将“扩规模”做到极致，更多数据、更多算力、更大模型成为主流追求。但Ashish Vaswani和Niki Parmar却对此提出了质疑，他们认为模型并非越大越聪明，从算力效率角度看，大模型时代或许已经接近尾声，小模型时代正悄然来临。

Rnj-1正是这种理念的实践成果。这款从零开始训练的80亿参数模型，虽然参数规模远不及那些动辄万亿的大模型，但它在多个方面展现出了强大的实力。在代码生成领域，Rnj-1 Base与Instruct在Humaneval+、MBPP+等算法类代码任务，以及BigCodeBench等更广泛的编程任务中，表现与最强同规模开源模型相当，甚至在某些情况下超越了更大的GPT OSS 20B。

在智能体能力方面，Rnj-1 Instruct表现尤为突出。在SWE-bench上，它的表现比同尺寸模型强出近一个数量级，接近大规模模型水平。它能够主动使用性能分析器检查瓶颈，提出优化方案并进行多轮迭代。在Enamel任务中，Rnj-1 Instruct超越了强力基线；在伯克利函数调用排行榜（BFCL）中，其工具使用能力也领先同类模型。

数学与科学推理能力也是Rnj-1的一大亮点。在AIME'25（高难度高中数学）中，Rnj-1 Instruct的数学能力与最强开源模型匹敌；Rnj-1 Base在Minerva-MATH上与同规模模型保持一致；在GPQA-Diamond（包含生物、物理、化学的高难度题目）上，表现也接近同尺寸模型中的领先水平。

除了性能出色，Rnj-1对量化也非常稳健。这意味着它能在更便宜、更省电的显卡上快速运行，且模型质量几乎不受影响。从BF16到FP8再到NVFP4，在显著提升提示密集型工作负载的token吞吐量的同时，模型质量依然稳定。Token吞吐量数据基于NVIDIA B200 GPU测得，其中KV Cache的数据类型设为FP8，批大小为128。

Rnj-1之所以能取得如此优异的成绩，离不开其独特的技术架构。它采用全局自注意力机制（global self-attention）和YaRN技术。全局自注意力机制就像为模型配备了一双“全景眼睛”，无论输入多长，都能一次全部看清；YaRN技术则如同“长距离阅读辅助器”，让模型在32k上下文中仍能保持清晰思考。

Essential AI Labs在研发Rnj-1的过程中，秉持着独特的理念。他们专注于基础能力的提升，认为强大的预训练本身就会产生推理能力，而不是依靠后期堆砌强化学习（RL）来补课。在早期预训练阶段，他们就观察到模型出现反思与探索式推理的迹象，这印证了“强预训练是下游成功基础”的判断。他们还通过数据分类研究，得到了一种新的“带重复惩罚的数据分布聚类与混合方法”，提升了模型在STEM（科学、技术、工程、数学）方面的能力。在优化器方面，他们证明了Muon优化器相较AdamW更高效，并开发了适配大模型的分片策略。

Rnj-1的推出，不仅为AI领域带来了新的技术思路，也在开源生态中引发了关注。当前，轻量化开源生态领域正由中国企业主导，而Essential AI的开源平台以及Rnj-1的推出，旨在推动美国AI开源领域的发展，抢夺在这一领域的话语权。这一举措有望打破“越大越好”的行业竞争格局，加速AI人人可用时代的到来，让更多人能够享受到人工智能带来的便利。