软件工程领域迎来重要进展,JetBrains 正式宣布开源其最新研发的 Mellum2 机器学习模型。这款专为开发者设计的模型在功能与性能上实现显著突破,为代码生成与智能协作提供全新解决方案。
相较于前代 Mellum 模型,Mellum2 完成从单一代码补全工具向全功能编码助手的转型。其上下文处理能力实现质的飞跃,窗口容量从 8192 Token 扩展至 131072 Token,可支持更复杂的代码逻辑推导。模型采用稀疏混合专家架构,总参数量达 120 亿,但激活参数量控制在 25 亿级别,在标准硬件环境下仍能保持高效运算。
开发者可通过 Apache 2.0 协议获取三种定制版本:基础版满足常规代码生成需求,指令版支持复杂任务拆解,思考版则具备长对话记忆与多步骤推理能力。这种分层设计使不同规模团队都能找到适配方案,特别适合需要私有化部署的企业用户。
在核心功能层面,Mellum2 突破传统代码生成边界。其智能体架构支持调用外部工具链,可自动完成 API 查询、依赖安装等辅助操作。通过多步骤工作流编排,模型能将大型任务分解为可执行的子任务序列,显著提升复杂项目开发效率。长对话记忆功能则使上下文保持能力突破单次会话限制,实现跨文件、跨会话的连贯协作。
训练数据构建方面,研发团队采用渐进式课程学习策略。初期使用多样化网络文本建立基础语义理解,中期逐步增加代码与数学数据比重,最终聚焦软件工程领域专项训练。这种三阶段数据配比使模型既保持通用语言能力,又深度适配开发场景需求。
该模型已明确四大应用方向:作为工作负载路由核心协调多个 AI 工具,构建低延迟检索增强生成系统,在复杂项目中担任快速响应的子智能体,以及支持完全离线的本地化部署。这些特性使其成为企业级 AI 开发平台的理想选择,既能保障数据安全,又能满足实时协作需求。

