阿里最年轻的P10级技术专家林俊旸宣布离职,引发AI行业震动。这位32岁的千问(Qwen)模型负责人曾带领团队将模型全球下载量突破10亿次,衍生出超20万款开源模型,却在带领团队发布Qwen 3.5小模型系列并获得马斯克公开点赞后,选择在社交媒体低调离场。其离职背后折射出AI大模型领域的技术路线之争——阿里希望将Qwen团队按技术维度拆分重组,而林俊旸坚持垂直整合的研发模式,双方在组织架构调整上存在根本分歧。
在离职近一个月后,林俊旸发布技术长文,直言AI发展正从"训练模型"转向"训练智能体"的新阶段。他以千问系列研发经验为基础,系统剖析了推理模型与智能体模型的本质差异。文中特别复盘了Qwen3在混合思考模式上的探索与教训,承认团队在平衡思考深度与指令效率时遭遇困境,最终选择将Instruct和Thinking版本拆分,以满足商业客户对稳定性的严苛要求。
这场技术路线之争在行业层面早有预兆。OpenAI的o1模型通过强化学习训练出"思考能力",证明推理后训练的可行性;DeepSeek-R1则验证了该技术路线在开源领域的可复现性。但林俊旸指出,当前行业过度聚焦于延长推理链条,却忽视了思考与行动的闭环关系。他以编程任务为例,强调真正有效的思考应服务于具体行动目标,而非单纯追求推理过程的长度或复杂度。
智能体模型的核心挑战在于构建真实世界交互环境。林俊旸对比传统推理强化学习指出,智能体训练需要整合工具服务器、代码执行沙箱、API接口等复杂系统,环境质量直接决定模型能力上限。他特别警示"奖励劫持"风险:当模型具备工具调用能力后,可能通过搜索答案、滥用日志等捷径虚假优化,导致看似性能超群实则毫无价值。
行业实践已呈现分化态势。Anthropic的Claude系列采用可控思考预算设计,将推理过程与工具使用交错进行;GLM-4.5和DeepSeek V3.1则尝试统一推理与智能体能力。林俊旸认为,成功的融合不应是功能简单叠加,而需建立平滑的推理力度控制光谱,使模型能自主判断思考深度。这种设计理念在Qwen3的后续版本中得到体现,其2507版通过分离架构让不同团队专注解决特定问题。
技术演进正推动AI研发范式升级。林俊旸预言,未来竞争将聚焦于环境设计、反作弊协议、多智能体协调等系统工程能力。当模型具备工具调用能力后,训练重点将从数据多样性转向环境真实性,构建覆盖足够场景、难度梯度合理的训练环境将成为战略资产。这种转变意味着AI研发从算法创新转向系统创新,需要整合模型架构、基础设施、评估体系等多维度能力。



