智快网
快讯 行业 产业 汽车 科技 AI+ 热点

阿里巴巴研究揭示:AI训练中极少数关键位置驱动模型性能跃升

2026-04-03来源:天脉网编辑:瑞雪

阿里巴巴集团Qwen Pilot团队在国际学习表征会议(ICLR)上发表的一项突破性研究,彻底颠覆了人们对人工智能训练过程的传统认知。该团队通过精密实验发现,在强化学习训练大语言模型时,真正推动性能提升的改变仅发生在不到2%的词汇位置,其余98%以上的训练过程几乎未产生实质性影响。这一发现犹如在AI领域投下一颗重磅炸弹,引发学界对机器学习机制本质的重新思考。

研究团队采用Jensen-Shannon散度这一数学工具,对模型训练前后的词汇选择变化进行毫米级测量。实验数据显示,在使用SimpleRL训练方法时,仅1.7%的词汇位置发生显著改变;即便采用鼓励探索的DAPO方法,这一比例也未超过7%。更令人惊讶的是,这些关键变化并非随机分布,而是呈现明显的位置偏好——约60%的实质性改进集中在文本生成的开头和结尾部分,对应着模型对整体思路的修正和结论的优化。

交叉采样实验为这项发现提供了决定性证据。研究人员将强化学习模型在关键位置的词汇选择,"移植"到基础模型的生成过程中,结果发现仅替换1.53%的词汇,就能使基础模型在数学推理测试中的准确率提升近三倍。反向实验则显示,移除同样比例的强化学习词汇选择,会导致模型性能急剧退化。这种"四两拨千斤"的现象,证明AI性能的提升高度依赖于少数关键决策点的精准调整。

深入分析揭示,强化学习的改进机制与人类学习存在深刻共鸣。模型更倾向于修改那些原本就存在不确定性的词汇选择,就像学生优先攻克难题而非重复练习已掌握的知识。但不同训练方法展现出独特策略:DAPO方法能够突破模型固有认知,对看似确定的选择进行重新评估;而SimpleRL则采取保守策略,专注于修正高风险错误。这种差异在词汇类型偏好上体现得尤为明显——功能词和推理术语更易发生改变,而数字和运算符则保持相对稳定。

研究团队通过追踪训练动态发现,模型在初始阶段会进行广泛探索,但随着训练深入,变化逐渐聚焦于越来越小的词汇子集。这种"先发散后收敛"的模式,与人类形成专业能力的过程惊人相似。更有趣的是,强化学习主要通过重新排序现有候选词汇来优化选择,而非引入全新词汇。数据显示,约90%的强化学习首选词汇,原本就排在基础模型的前三个候选位置中。

这项发现正在催生新一代训练技术。研究团队开发的散度加权优势方法,通过调节不同词汇位置的学习信号强度,在数学推理基准测试中实现了3.6%的准确率提升。这种精准干预策略,为解决AI训练中的效率瓶颈提供了全新思路。实验表明,即使只强化模型在0.1%最关键位置的学习信号,也能带来可测量的性能改善。

该研究对AI开发实践产生深远影响。传统方法需要处理数以亿计的参数更新,而新发现提示开发者可以聚焦于识别和优化那些真正影响性能的"决策枢纽"。这种转变不仅将大幅降低计算资源消耗,还能提高模型行为的可解释性——当知道哪些词汇选择决定AI表现时,开发者就能像调试精密仪器般调整模型行为。

对于普通用户而言,这项研究预示着AI产品将变得更加精准可靠。当训练过程从"广撒网"转向"精准打击",AI系统在处理复杂任务时将减少不必要的试错,输出结果的质量和一致性将显著提升。更深远的意义在于,它揭示了智能的本质不在于计算规模,而在于在关键时刻做出正确判断的能力——这个洞见或许同样适用于人类的学习与成长。

荣耀X80i悄然上架!1999元起售,配置亮点多能否成中端新宠?
懂智能手机行业的朋友都知道,各手机品牌不会针对旗下所有机型都召开发布会。召开发布会的仅是重点机型而已,有些机型往往都是直接上架的。 今天给大家分享的就是一款直接上架的机型,它就是——荣耀X80i。另外荣耀80…

2026-04-03

Vocci Ring智能戒指来袭:航天级材质加持,AI联动实现高效语音转写
IT之家 4 月 2 日消息,制造商 Gyges Labs 宣布推出一款名为 Vocci Ring 的智能戒指,号称是“全球首款 AI笔记戒指”,其内置录音功能,可联动 AI 智能体进行会议记录转写等操作,…

2026-04-03

3月安卓性能榜揭晓:荣耀三款入围,一加小屏逆袭,极致性能花落谁家?
说实话,现在很多旗舰机都在喊全能,但真正能把性能、影像、续航和屏幕同时做得不拉胯的并不多,真我GT8 Pro这次能排到第四,说明它不是只会喊口号,而是真的把产品做出来了。但一加15T直接冲到第二名,等于告诉整…

2026-04-03

OPPO Find X9s Pro配置亮点多:天马屏搭配双两亿像素,小屏党福音来了
搭配上出色的屏幕,可以说OPPO Find X9s Pro解决了很多问题,况且OPPO的哈苏影像认证和影像算法都很强。 然后就是优势在于双2亿影像+第二代丹霞色彩+极窄四等边小直屏,如果你是小屏党,又对色彩…

2026-04-03

豆包AI手机价格跳水!准新机降至三千档,是入手时机还是再等等?
都被黄牛炒到几万块了,但搞笑的是豆包AI手机只是一款工程机,连正式命名都没有。 看到这个消息,小智立马去看了下某鱼上的豆包AI手机价格如何,结果发现其已经跌落神坛,不少准新机的价格已经跌到3000左右,小智…

2026-04-03

火山引擎发力AI领域:Seedance 2.0 API公测,豆包大模型Token使用量飙升
谭待认为,企业 Agent 未来将沿双路径并行发展:一是敏态 Agent,以ArkClaw等数字助理产品为代表,重在探索和提升个人生产力,是企业的创新试验场;二是稳态 Agent, 企业可实现AI最佳实…

2026-04-03

火山引擎开放Seedance 2.0:日均120万亿Token背后,AI价值付费时代来了?
这不,4月2日,雷科技(ID:leitech)收到了字节的活动邀请,还没等小雷反应过来,我人又在武汉光谷的希尔顿酒店坐着,跑来参加他们今年第一次AI创新巡展了。 要知道,最近整个科技圈都在争论一个话题,面对…

2026-04-03