智快网
快讯 行业 产业 汽车 科技 AI+ 热点

旧金山四人团队另辟蹊径:用千万小时视频训练出通用计算机操作新模型

2026-02-25来源:快讯编辑:瑞雪

旧金山一家名为Standard Intelligence的初创公司,近日宣布推出名为FDM-1(前向动力学模型)的计算机行为模型,宣称其为“首个完全通用的计算机行为模型”。该模型通过直接处理视频流,在CAD建模、网站安全测试以及自动驾驶等场景中展现出强大的泛化能力,引发行业关注。

与传统计算机使用代理依赖截屏分析和界面元素识别不同,FDM-1选择了一条截然不同的技术路径。它直接从大规模视频数据中学习人类操作计算机的行为模式,而非在已有视觉语言模型上叠加工具调用能力。Standard Intelligence认为,要实现真正通用的计算机操作智能体,关键在于利用互联网规模的视频语料库,而非局限于截屏上的分类和推理。

当前,主流的计算机使用代理如Anthropic的Claude、OpenAI的Operator以及Google DeepMind的Project Mariner,均采用“看图说话”的思路,依赖视觉语言模型和工具调用能力。这些模型通过截屏、识别界面元素、模拟点击和键入来操作计算机,尽管在特定基准测试中取得了不错成绩,但本质上仍受限于截屏分辨率和操作频率。

FDM-1的训练方法则更接近OpenAI在2022年提出的VPT(视频预训练)方法,但进行了显著改进。VPT通过少量标注数据训练逆向动力学模型(IDM),再利用IDM为大规模游戏视频自动打标签,最终实现行为克隆训练。然而,VPT的应用局限于Minecraft游戏环境,且上下文窗口极短,无法处理需要长时间连贯操作的任务。

Standard Intelligence在FDM-1的开发中,同时突破了数据规模和上下文长度两个维度。他们首先利用4万小时的标注员录屏数据训练IDM,然后用IDM为1,100万小时的互联网视频语料库自动标注操作动作。IDM采用掩码扩散架构,能够同时参照所有帧来推断每个时间步的动作,提高了数据效率和标注准确性。

在上下文长度方面,FDM-1通过自研的视频编码器实现了显著突破。现有视觉语言模型处理屏幕录制视频的方式极度浪费token,导致上下文窗口极短。而FDM-1的视频编码器能够将近两小时的30 FPS视频压缩进200k token预算,比此前最优方案高效50倍。这使得FDM-1能够在更长的上下文窗口中处理视频流,适应需要长时间连贯操作的任务。

FDM-1本身是一个标准的自回归模型,接收此前的视频帧和动作序列,预测下一个动作token。输出空间由键盘按键和鼠标移动增量组成。为了处理鼠标位移的庞大状态空间,FDM-1将鼠标位移分解为X和Y分量,使用指数分箱将其映射到有限数量的箱中。同时,每个鼠标移动token还附带预测下一个点击位置,帮助生成更精确的轨迹。

在评估基础设施方面,Standard Intelligence建立了一套可运行8万台分叉虚拟机的系统,每小时能跑超过100万次rollout。分叉机制允许他们对操作系统状态做完整内存快照并复制到新的VM上,从而在同一个起始状态上并行跑数千次评估。这种评估方式大大提高了测试效率,降低了推理延迟。

初步评测结果显示,IDM标注数据在鼠标操作、目标点击、符号记忆和UI操控等方面的表现已经超过了人工标注的承包商数据。然而,在打字和语言理解任务上,IDM数据上的进步速度慢于承包商数据,这可能是由于IDM标注噪声造成的。未来,Standard Intelligence计划混合使用两种数据,以进一步提高模型性能。

在自动驾驶的微调实验中,FDM-1在不到1小时的驾驶数据上微调后,就能用方向键控制汽车在旧金山绕街区转弯,起始准确率为50%。这一结果明显高于仅有视频编码器而没有互联网视频预训练的基线模型,展示了FDM-1在连续控制任务上的潜力。

Standard Intelligence的研究团队背景年轻但研究嗅觉敏锐。核心作者包括来自UCLA的Neel Redkar、参与过机器学习对齐理论学者项目的Yudhister Kumar等。在FDM-1之前,该团队已经有过两个引起关注的项目:一个是建造30 PB存储集群用于存放视频数据,另一个是开源全双工音频基础模型hertz-dev。这两个项目分别对应了FDM-1所需要的两个关键能力:大规模数据基础设施和跨模态学习。

尽管FDM-1现在还远不是一个可用的产品,缺乏指令跟随能力和公开标准化基准测试结果,但它在连续控制任务上的独特优势以及提出的技术路径仍然值得关注。未来,FDM-1代表的路线和视觉语言模型代理路线最终可能会趋于融合,兼得两种路线的优点。

宇树科技Unitree As2四足机器人亮相:动力续航强劲,开放生态拓展应用新篇
此外,As2的极限速度可达5m/s,并具备IP54级的防雨水防护,进一步拓展了其在户外恶劣天气与潮湿环境下的适用性。就在本月,宇树科技已通过与香港电讯合作,将四足机器人成功部署于香港建造业安全巡检及中学教育等…

2026-02-25

AMD锐龙AI 400系列处理器扩展至桌面平台 商用市场或迎新选择
IT之家 2 月 24 日消息,据科技媒体 VideoCardz 今天报道,AMD 已确认锐龙 AI 400系列处理器不仅面向笔记本、迷你主机等移动平台,也将在今年第二季度登陆桌面平台。 ▲ 图源:Vide…

2026-02-25

华为梁华:数智基建筑基 AI与鸿蒙生态共促产业智能化升级
“当前,我们正处在一个技术深刻变化的时代,人工智能的飞速发展,将加速实现数字世界与物理世界的深度融合,重塑现有的开发范式、生产方式和服务模式,改变人机交互方式,并催生更多新应用。” “与前几次工业革命‘单点…

2026-02-25

Meta豪掷超千亿采购AMD AI芯片 股权互换开启AI芯片合作新模式
该协议总价值超过1000亿美元,Meta将在未来五年内从AMD采购相当于6吉瓦AI算力的芯片。不同于AMD以往主要销售标准化GPU,此次是AMD首次向客户提供高度定制化的AI芯片,专门优化用于AI模型的推理环…

2026-02-25

OPPO Enco Air5 Pro耳机3月2日开售:旗舰降噪超长续航 入门价享高端体验
现在的新耳机,所支持的降噪技术越来越多,主要是应对不同场景,比如地铁站、广场、商场等。两大降噪核心的加持下,可应对不同降噪,带来更清晰的通话质量。 续航方面,单耳机电池容量为62mAh,可续航13小时(关闭降…

2026-02-25

小米SU7赤霞红配色惊艳亮相 网友热议:高级优雅婚车新选择
有博主在发布现场,拍摄了新一代小米Su7全新配色赤霞红的揭幕仪式,随着幕布掀开,彤红车身映入眼帘,与今天大年初八的喜庆氛围颇为应景。 3种全新配色之一的卡布里蓝,已在新一代SU7官宣时亮相,此次公布的赤霞红…

2026-02-25

Taalas“模型即芯片”引热议,是颠覆者还是昙花一现?
在公司官网的介绍文章中,巴伊奇称,这款芯片选择了Meta公司2024年7月推出的开源大模型Llama 3.18B作为运行平台,峰值推理速度接近17000 tokens/秒,比目前市场中最先进的技术快近10…

2026-02-25

荣耀入局人形机器人赛道,MWC 2026将携首款产品开启消费级具身智能新篇
2026年2月24日消息,据《科创板日报》昨日报道,荣耀将在MWC2026巴塞罗那移动通信大会期间,正式推出旗下首款人形机器人。荣耀由此将成为全球第一家入局人形机器人的手机公司。 此前,在2025年5月28…

2026-02-25

OpenAI或推ChatGPT Pro Lite新订阅 每月100美元享更高配额深度思考模型
主流版本 ChatGPT Plus 月费为 20 美元,无广告干扰并提供更广泛的功能权限与更高使用配额。针对专业用户群体的 ChatGPTPro 订阅费用达每月 200 美元,提供当前最高级别的功能权限与配…

2026-02-24