在具身智能领域,一场具有里程碑意义的变革正悄然发生。长久以来,具身智能的发展受困于评测瓶颈,传统依赖仿真环境的评测方式,虽能加速模型迭代,却难以跨越“仿真到现实”的鸿沟,导致模型在虚拟环境中表现优异,却在真实物理世界中“水土不服”。如今,一个全新的“真机演武场”在行业内崭露头角,为具身智能的发展开辟了新路径。
近期落幕的EAIDC 2026大会上,一场别开生面的开发者大赛吸引了众多目光。从表面看,这似乎是一场普通的开发者竞赛,但深入探究其赛制设计,会发现它是一场从“模型视角”精心策划的能力测试。这场比赛在多个关键层面展现出独特之处。
在模型路径选择上,比赛给予参赛者充分自由。参赛者能够自由挑选不同的开源具身模型,涵盖各类国内外VLA。这一设定并非单纯降低参赛门槛,而是旨在激发开发者的创新潜力,提升其分辨能力。数据范式的处理也是一大亮点。比赛提供真机数据,且无本体数据参与训练,让开发者依据自身思考和研究方向,自主选择数据配比。如此一来,真正接受检验的不再是数据路线的正确性,而是数据能否在真实环境中支撑模型实现闭环。
任务设计方面,比赛聚焦于具身智能的核心能力,围绕抓取、语言理解、精细操作与长时序决策等展开。不同任务设置不同权重,最终成绩不仅考量步骤得分,还综合成功率和泛化表现。这种结构使比赛不再局限于考察模型“能否完成任务”,而是直接指向模型能力的上限,即“能否落地应用,如何与产业结合”。例如,选手在面对“将环套在柱子上”任务时,初期成功率仅20 - 30%,随着不断尝试和优化,逐渐提升至60 - 70%;“拼写单词”任务的成功率也从极低水平提升至40 - 50%。在高难度任务的“磨砺”下,模型能力边界不断拓展。
泛化机制的引入是比赛的又一创新点。通过类似AB卷、随机环境切换等设计,考验模型的泛化能力。比赛的B卷在制度上限制“刷题式优化”,迫使模型面对未知条件。这一机制将“泛化能力”从附加项转变为核心指标,使比赛更接近测试模型的“未知边界”,而非仅仅验证“已知能力”。
为了确保比赛顺利进行,让选手专注于算法优化与任务实现,主办方提供了全方位的支持。比赛使用的机械臂是自变量机器人自主研发的高性能六轴机械臂,专为AI设计,具备高精度、高响应的硬件性能,能更好地复现模型能力。在三天的高强度运行中,无论是大规模数据采集,还是模型推理部署,这套机械臂硬件系统都展现出稳定的承压能力,为参赛团队提供了可靠、一致的硬件保障。主办方还提供算力支持,解决了选手的后顾之忧。
这场比赛的核心变革在于,所有能力测试均在真机上完成。在EAIDC现场,上百条机械臂同时运行,从数据采集、模型训练到部署与评测,形成一个完整闭环,并在短时间内完成高频迭代。这种真实物理环境下的测试,迅速放大了长期被仿真掩盖的问题。在抓取任务中,细微的位置偏差和接触不确定性会直接影响成功率;在语言理解与操作结合的任务中,指令歧义与视觉误差的叠加会迅速放大系统不稳定性;在长时序任务中,误差的累积效应往往成为决定成败的关键。
国内外顶级模型厂商都意识到,模型评测正成为具身智能发展的重要瓶颈。Physical Intelligence创始人兼CEO Karol Hausman在采访中强调,机器人的所有行为都需在现实世界中完成,无法像大语言模型那样通过数百万次快速试错完成模型更新,这一过程耗时过长,因此必须攻克机器人的评估难题。自变量联合创始人兼CTO王昊也指出,具身智能的核心是交互学习,只有通过持续测试、观察与反馈,让机器在真实物理世界中解决复杂性问题,才能推动其发展。真机评测让模型直接面对真实世界的挑战,推动具身智能从Demo级“炫酷”向生产力级可靠性转变,这是评价体系的重要转向,也是具身智能从“技术展示”走向“工程能力”的分水岭。
除了比赛本身,两场圆桌讨论也为行业发展提供了重要视角。在第一场圆桌中,嘉宾围绕数据、模型与商业化路径展开讨论。大家认识到,与大模型不同,具身智能的数据获取成本高、闭环难度大,“数据规模”不再是唯一指标。未来的数据路径将是分层的,低成本数据用于预训练,高质量真机数据用于微调,如何在效率与效果之间取得平衡将成为核心竞争力。自变量王昊表示,将坚持真实世界的数据采集,同时注重不同类型数据的合理配比,2026年将更依赖人的穿戴式或Ego - Centric方式采集数据,但要与真实机器人数据形成良好配比,这一数据策略将决定模型的上限。
对于模型路径,尽管VLA仍是主流,但其局限性逐渐显现,行业开始探索多模态融合、世界模型等路径,但模型结构尚未收敛。自变量强调,所有模型路径最终都需通过真实评测决定方向,这也是推动真机比赛的重要原因,评测将成为模型演进的“指挥棒”。
在第二场产学研圆桌中,“割裂”成为关键词。学术界具备模型与算法创新能力,但缺乏真机系统与数据闭环;产业界掌握场景与工程能力,却因效率压力难以进行长期探索;开发者与开源社区处在两者之间,缺少完整工具链,难以复现真实系统。这种错位导致重复造轮子和创新效率下降,学术成果难以落地,工程经验难以沉淀为通用方法,开源也往往停留在“可见但不可用”的状态。具身智能已从单点技术问题演变为系统工程问题,需要深度协同。
自变量通过比赛提供统一的真机环境与评测体系,开放数据、模型与工具链,尝试解决这一问题,让学术、产业与开发者在同一个真实环境中协作,使能力相互放大。EAIDC所提供的,是一套让开发者快速进入、在真实约束中验证并持续迭代的基础设施,为具身智能走向规模化奠定了重要基础。