上交团队携ML-Master 2.0登顶OpenAI基准测试，国产AI引领科研新范式-快讯-智快网

在人工智能与科研深度融合的浪潮中，一款名为ML-Master 2.0的自主智能体系统引发全球关注。由上海交通大学人工智能学院、上海算法创新研究院及深势科技联合研发的这款系统，基于国产开源大模型DeepSeek-V3.2-Speciale，在OpenAI权威评测基准MLE-bench中以56.44%的奖牌率登顶全球榜首，较国际顶尖团队基于闭源模型的方案提升28.3%。这一突破标志着中国团队在AI驱动科研探索领域实现关键范式革新。

区别于传统AI系统聚焦短程任务优化的路径，ML-Master 2.0专为机器学习工程（MLE）的复杂场景设计。真实科研场景中，科研人员常需在数十小时内经历假设验证、代码调试、结果分析的循环迭代，失败率远高于成功率。研发团队突破性地将"认知积累"作为核心架构，通过层次化认知缓存机制（HCC），将探索过程中产生的经验、知识与智慧分层管理：即时经验支撑当前决策，稳定知识服务同一任务，跨任务智慧为新问题提供策略起点。这种设计使系统在长时间运行中既能保持探索方向，又能避免"上下文爆炸"导致的认知混乱。

在MLE-bench的严苛测试中，ML-Master 2.0展现三大核心能力：其一，超长程自主性，可在持续数十小时的科研任务中保持目标聚焦；其二，高效试错机制，能从失败实验中提炼规律而非简单重复尝试；其三，认知迁移能力，能将已验证无效的技术路径主动排除，并将经验转化为可复用的认知资产。测试数据显示，该系统在完全无人工干预条件下，代码生成、调试修正与结果分析的完整闭环执行效率较国际同类产品提升显著。

目前，ML-Master 2.0已进入实际应用阶段，在理论计算物理模拟、具身智能机器人训练等前沿领域发挥关键作用。例如在量子材料研究中，系统通过自主设计实验方案，将传统需要数月的模拟周期压缩至两周；在机器人控制领域，其持续优化能力使机械臂操作精度突破行业基准。这些实践验证了AI科学家在真实科研场景中的可行性。

该系统的技术架构已通过GitHub开源平台向全球研究者开放，核心代码包含认知缓存管理、任务分解策略等创新模块。同时，SciMaster线上平台正式启动体验申请通道，通过"SciMaster的朋友圈"社区，科研人员可提前获取系统使用权。配套的EigenAI基础设施提供稳定算力支持，确保系统在复杂任务中的持续运行能力。

项目地址：
https://github.com/sjtu-sai-agents/ML-Master
SciMaster平台：
https://scimaster.bohrium.com/chat/

小米17 Ultra官宣12月25日发布携徕卡红标影像实力再进阶
2025-12-25

英伟达与Groq达成授权协议，获推理技术授权及多位高管加入

CNBC稍早前报道称，Disruptive公司CEO亚历克斯·戴维斯(Alex Davis)披露，英伟达已同意以200亿美元现金收购AI芯片设计公司Groq的资产，创造公司史上最大收购交易。作为协议的一部分…

2025-12-25

魅族23假想图现身网络背屏设计引关注后置三摄均达5000万像素

【CNMO科技消息】近日，网络上流传出一组据称是魅族下一代旗舰手机——魅族23的假想图及详细影像参数。假想图显示，新机在设计上或将迎来显著变化，并搭载一套规格不俗的影像系统。主摄据称将采用OV50H满血版影像…

2025-12-25

iPhone 17e量产在即，或延续低价策略，配置升级但无缘高刷

距离2026年仅剩最后一周时间了，在即将到来的新一年里，苹果产品中最先登场的将是新一代的iPhone 17e。不过，据博主@数码闲聊站爆料，iPhone 17e依然无缘高刷，其屏幕刷新率仍将维持在60Hz。…

2025-12-25

OPPO Watch S：2025年科技年度盘点中脱颖而出的健康管理贴心伙伴

在本次年度盘点中，OPPO WatchS以其全面、专业且便捷的健康监测与管理体系，赢得了“健康管理伙伴”的赞誉。作为一款兼具颜值、通信能力与健康守护的中高端智能手表，OPPOWatch S精准满足了用户…

2025-12-25

新面孔新搭子！小米17 Pro Max以全能实力成2025年科技生活理想伙伴

作为小米高端化战略的集大成者，小米17 Pro Max搭载了第五代骁龙8至尊版移动平台，辅以立体环形冷泵散热系统（散热面积达5533mm2），可将高负载场景下的机身温度稳定控制在40℃以内，确保高性能持续稳…

2025-12-25

DDR4价格飙升三星调整策略：暂缓停产 2026年签长单保供应

2025-12-25

谷歌新突破：Gemini 3 Flash以小博大，长文本低成本实现降维打击

然而，Gemini 3 Flash的出现打破了这一线性逻辑，它不仅在成本和速度上保持了「Flash」系列的轻量级特征，更在多项关键基准测试中，尤其是涉及复杂推理和超长上下文的任务上，击败了前一代甚至当代的「…

2025-12-25