智快网
快讯 行业 产业 汽车 科技 AI+ 热点

上交团队携ML-Master 2.0登顶OpenAI基准测试,国产AI引领科研新范式

2025-12-25来源:快讯编辑:瑞雪

在人工智能与科研深度融合的浪潮中,一款名为ML-Master 2.0的自主智能体系统引发全球关注。由上海交通大学人工智能学院、上海算法创新研究院及深势科技联合研发的这款系统,基于国产开源大模型DeepSeek-V3.2-Speciale,在OpenAI权威评测基准MLE-bench中以56.44%的奖牌率登顶全球榜首,较国际顶尖团队基于闭源模型的方案提升28.3%。这一突破标志着中国团队在AI驱动科研探索领域实现关键范式革新。

区别于传统AI系统聚焦短程任务优化的路径,ML-Master 2.0专为机器学习工程(MLE)的复杂场景设计。真实科研场景中,科研人员常需在数十小时内经历假设验证、代码调试、结果分析的循环迭代,失败率远高于成功率。研发团队突破性地将"认知积累"作为核心架构,通过层次化认知缓存机制(HCC),将探索过程中产生的经验、知识与智慧分层管理:即时经验支撑当前决策,稳定知识服务同一任务,跨任务智慧为新问题提供策略起点。这种设计使系统在长时间运行中既能保持探索方向,又能避免"上下文爆炸"导致的认知混乱。

在MLE-bench的严苛测试中,ML-Master 2.0展现三大核心能力:其一,超长程自主性,可在持续数十小时的科研任务中保持目标聚焦;其二,高效试错机制,能从失败实验中提炼规律而非简单重复尝试;其三,认知迁移能力,能将已验证无效的技术路径主动排除,并将经验转化为可复用的认知资产。测试数据显示,该系统在完全无人工干预条件下,代码生成、调试修正与结果分析的完整闭环执行效率较国际同类产品提升显著。

目前,ML-Master 2.0已进入实际应用阶段,在理论计算物理模拟、具身智能机器人训练等前沿领域发挥关键作用。例如在量子材料研究中,系统通过自主设计实验方案,将传统需要数月的模拟周期压缩至两周;在机器人控制领域,其持续优化能力使机械臂操作精度突破行业基准。这些实践验证了AI科学家在真实科研场景中的可行性。

该系统的技术架构已通过GitHub开源平台向全球研究者开放,核心代码包含认知缓存管理、任务分解策略等创新模块。同时,SciMaster线上平台正式启动体验申请通道,通过"SciMaster的朋友圈"社区,科研人员可提前获取系统使用权。配套的EigenAI基础设施提供稳定算力支持,确保系统在复杂任务中的持续运行能力。

项目地址:
https://github.com/sjtu-sai-agents/ML-Master
SciMaster平台:
https://scimaster.bohrium.com/chat/

英伟达与Groq达成授权协议,获推理技术授权及多位高管加入
CNBC稍早前报道称,Disruptive公司CEO亚历克斯·戴维斯(Alex Davis)披露,英伟达已同意以200亿美元现金收购AI芯片设计公司Groq的资产,创造公司史上最大收购交易。作为协议的一部分…

2025-12-25

魅族23假想图现身网络 背屏设计引关注 后置三摄均达5000万像素
【CNMO科技消息】近日,网络上流传出一组据称是魅族下一代旗舰手机——魅族23的假想图及详细影像参数。假想图显示,新机在设计上或将迎来显著变化,并搭载一套规格不俗的影像系统。主摄据称将采用OV50H满血版影像…

2025-12-25

iPhone 17e量产在即,或延续低价策略,配置升级但无缘高刷
距离2026年仅剩最后一周时间了,在即将到来的新一年里,苹果产品中最先登场的将是新一代的iPhone 17e。不过,据博主@数码闲聊站爆料,iPhone 17e依然无缘高刷,其屏幕刷新率仍将维持在60Hz。…

2025-12-25

OPPO Watch S:2025年科技年度盘点中脱颖而出的健康管理贴心伙伴
在本次年度盘点中,OPPO WatchS以其全面、专业且便捷的健康监测与管理体系,赢得了“健康管理伙伴”的赞誉。作为一款兼具颜值、通信能力与健康守护的中高端智能手表,OPPOWatch S精准满足了用户…

2025-12-25

新面孔新搭子!小米17 Pro Max以全能实力成2025年科技生活理想伙伴
作为小米高端化战略的集大成者,小米17 Pro Max搭载了第五代骁龙8至尊版移动平台,辅以立体环形冷泵散热系统(散热面积达5533mm2),可将高负载场景下的机身温度稳定控制在40℃以内,确保高性能持续稳…

2025-12-25

谷歌新突破:Gemini 3 Flash以小博大,长文本低成本实现降维打击
然而,Gemini 3 Flash的出现打破了这一线性逻辑,它不仅在成本和速度上保持了「Flash」系列的轻量级特征,更在多项关键基准测试中,尤其是涉及复杂推理和超长上下文的任务上,击败了前一代甚至当代的「…

2025-12-25