智快网
快讯 行业 产业 汽车 科技 AI+ 热点

Meta-Harness:AI智能体“自我进化”新路径,小模型性能跃升新高度

2026-04-05来源:快讯编辑:瑞雪

当AI智能体不再依赖人工调试参数和修复漏洞,而是能够自主完成这些任务时,人工智能的发展将迎来怎样的变革?斯坦福大学IRIS实验室与麻省理工学院、威斯康星大学的研究团队近期联合发布了一项突破性成果,通过开发名为meta-Harness的自动化框架,让AI智能体实现了对自身运行环境的自主优化。这一研究不仅颠覆了传统模型优化的路径,更在多个基准测试中展现出超越人类工程师的潜力。

传统AI开发中,模型性能的提升往往聚焦于扩大参数量、增加训练数据或优化强化学习策略。然而,新研究指出,支撑模型运行的"基础设施层"——包括系统提示词、工具调用逻辑、错误处理机制等——同样对最终效果起着决定性作用。实验数据显示,仅通过调整输入格式和执行流程,15个大型语言模型的编码能力可提升5-14个百分点,输出token减少约20%。更令人震惊的是,GPT-4 Turbo在更换执行框架后,准确率从26%飙升至59%,而模型本身并未发生任何改变。

meta-Harness的核心创新在于构建了一个完整的自动化优化闭环。该系统通过为优化器提供包含所有历史执行记录的"文件系统",使其能够自主检索代码变更、错误日志、性能评分等关键信息。与传统方法仅能观察压缩后的摘要信息不同,这一框架最高可处理1000万token的上下文数据,相当于主流方法的400倍。优化器不再是被动的信息接收者,而是能够主动分析执行轨迹、定位深层错误,并针对性地重写代码的智能代理。

在代码生成领域,该框架展现了惊人的优化能力。针对包含89个复杂任务的TerminalBench-2基准测试,优化后的Claude Haiku 4.5模型以37.6%的通过率登顶所有轻量级模型榜首,甚至超越了参数规模更大的Goose模型。更值得注意的是,优化过程完全基于具体任务的执行反馈,例如在第7轮迭代中,系统通过在初始提示中注入环境依赖信息,就使任务成功率提升了18个百分点。这种基于完整执行轨迹的"反事实诊断"能力,使得优化效率比传统方法提升了数十倍。

该框架的适用性远不止于代码领域。在文本分类任务中,优化后的系统在LawBench、Symptom2Disease等三个数据集上实现了48.6%的准确率,较此前最优方法提升7.7个百分点,且消耗的上下文token减少了77%。数学推理测试中,优化后的检索策略使5个不同模型在IMO级别难题上的平均得分提升4.7个百分点,展现出强大的跨模型迁移能力。这些成果证明,通过优化运行环境,小规模模型完全可能达到甚至超越大型模型的性能表现。

研究团队指出,当前AI开发中,工程师仍需手动编写提示词、调试工具接口、设计错误处理流程,这个过程不仅耗时费力,且很多深层问题难以通过人工诊断发现。meta-Harness通过将优化过程自动化,不仅解放了人力资源,更开辟了新的性能提升维度。随着AI系统复杂度的不断增加,这种能够自主进化的"基础设施层"优化方法,或将重新定义人工智能的发展路径。

2025年中国智能耳机出口透视:出口量超7亿个 美国成最大买家
2019-2025 年,我国中国智能耳机行业进出口总额总体有所下滑,2025 年进出口总额为 82.14 亿美元,同比下滑9.89%;实现贸易顺差 71.35 亿美元,同比下滑 32.45%。 2025 …

2026-04-04

72小时极限挑战!00后极客与机器人共舞 具身智能照进现实
自变量CTO王昊就对《智能涌现》说,行业目前几类赛事,有的提供纯仿真环境,虽然能控制变量,让参赛者更易上手,但离现实世界太远;还有的赛事只给选手提供数据,但所有评测过程均由主办方完成。 在这场具身智能开发者大…

2026-04-04

OPPO发布K系列新机及配件,电竞特色拉满,229元起售你心动吗?
先来说这个专门为OPPO K15 Pro+打造的全域液冷磁吸保护壳,它被设计成超酷炫的电竞机甲风并且采用全视窗流道设计,因此能够覆盖整个手机背面;它本身是一个壳子,但架构上还有一个专属的散热板子,这个散热主…

2026-04-04

惠州手机取卡针源头工厂怎么选?和发电子全流程服务性价比出众
不少合作客户反馈,其生产的取卡针适配性稳定,使用过程中不易出现卡滞或损坏卡槽的情况,大批量供货时交期稳定,能够匹配品牌方的量产节奏,一站式采购多品类五金配件的服务也大幅降低了对接成本。作为拥有20余年行业经验…

2026-04-04

优必选豪掷千万年薪招揽具身智能首席科学家 角逐全球顶尖人才市场
此次招聘的具身智能首席科学家不设国籍、年龄与性别限制,其定位为“优必选技术战略掌舵人与行业破局者”,核心职责是定义公司在人形机器人与具身智能领域的技术路线图,主导视觉-语言-动作模型、机器人基础模型、操作与…

2026-04-04

苹果与Vibe Coding的规则碰撞:平台控制权之争下的软件新生态
App Store 也不例外,苹果的审核团队在某个时间点检查了你的应用,确认它安全、合规、功能符合规定,然后放行。 今年初,外媒 TheInformation 报道了苹果对一批 Vibe Coding 应…

2026-04-04

小米MiMo-V2-Pro表现亮眼:调用量破万亿,多榜单登顶且跻身全球前五
这是我们在大模型领域一个新的里程碑”。 小米MiMo-V2-Pro 据CNMO了解,小米MiMo-V2-Pro自发布以来,深受全球开发者的喜爱,在OpenRouter平台,上线首周即成为平台首个周token…

2026-04-04

小米18 Pro系列背屏再升级 拓展实用交互 预计9月携新影像配置登场
PChome 4月3日消息,博主“智慧皮卡丘”发文爆料,小米18 Pro、ProMax两款旗舰将继续搭载背屏,并升级为AI智窗交互形态,打造高端旗舰差异化标识。 小米集团总裁卢伟冰此前已明确表态,下一代产品…

2026-04-04