智快网
快讯 行业 产业 汽车 科技 AI+ 热点

旧金山四人团队另辟蹊径:1100万小时视频训练出通用计算机操作新模型

2026-02-25来源:快讯编辑:瑞雪

旧金山一家名为Standard Intelligence的初创公司,近日推出了一款名为FDM-1(前向动力学模型)的计算机行为模型,宣称其为“首个完全通用的计算机行为模型”。该模型在包含1100万小时屏幕录制视频的数据集上完成训练,能够以每秒30帧的速率直接处理视频流,并在CAD建模、网站安全测试以及真实世界的自动驾驶场景中展现出令人瞩目的泛化能力。

当前主流的计算机使用代理技术路线主要依赖视觉语言模型(VLM)叠加工具调用能力。例如,Anthropic在2024年10月为Claude添加了Computer Use功能,通过截屏、界面元素识别和模拟点击来操作计算机。到2026年2月,Claude Sonnet 4.6在OSWorld基准测试中取得了72.5%的得分。OpenAI在2025年1月发布的Operator则基于GPT-4o的视觉能力与强化学习实现网页操控。Google DeepMind也布局了Project Mariner和Gemini 2.5 Computer Use等类似项目。这些巨头的共同特点是通过截屏分析理解界面,本质上仍是“看图说话”的思路。

Standard Intelligence认为,这种技术路线存在局限性。他们提出,真正通用的计算机操作智能体需要直接从大规模视频中学习人类行为模式,而非依赖截屏分类与推理。正如GPT-3需要互联网规模的文本语料库才能涌现语言能力,通用的计算机行为模型同样需要互联网规模的视频数据。目前最大的公开计算机操作数据集不足20小时30 FPS视频,而互联网上积累了数百万小时的剪辑制作、编程直播、游戏实况等操作录像,这些数据尚未被系统性利用。FDM-1正是瞄准这一缺口展开研发。

该模型的技术路线与2022年OpenAI发布的VPT(视频预训练)方法有相似之处。VPT通过少量人工标注的Minecraft游戏视频训练逆向动力学模型(IDM),再利用IDM为约7万小时的YouTube游戏视频自动标注操作标签,最终实现复杂任务的行为克隆。但VPT仅适用于特定环境,且上下文窗口极短(约六秒),难以处理需要长时间连贯操作的计算机任务。FDM-1则试图在数据规模和上下文长度两个维度上实现突破。

在数据规模方面,Standard Intelligence首先在4万小时标注员录屏数据上训练IDM,随后用该模型为1100万小时互联网视频自动标注操作标签。IDM通过观察屏幕前后帧变化反推操作动作,例如屏幕上出现字母“K”可能对应按下K键,光标移动则对应鼠标位移。尽管存在噪声和歧义,但这种方法在技术上可行。团队采用掩码扩散架构设计IDM,使其能够同时参照所有帧推断动作,先标注高置信度简单动作,再集中处理模糊难例。据称,这种方法比纯因果模型数据效率更高,且在鼠标移动和界面操作等任务上的表现甚至优于人工标注数据。

在上下文长度方面,突破来自团队自研的视频编码器。现有VLM处理屏幕录制视频的方式消耗大量token,例如一分钟30 FPS视频约需100万个token,导致主流模型在200k token上下文窗口中仅能处理几秒钟视频。Standard Intelligence的视频编码器声称能将近两小时(约36000帧)视频压缩进相同token预算,比此前最优方案高效50倍,比OpenAI编码器高效100倍。该编码器通过在屏幕录制数据上训练掩码压缩目标实现这一性能,并在文本转录基准测试中展现出比标准ViT快约100倍的收敛速度。

基于大规模标注数据和高效编码器,FDM-1采用标准自回归架构训练。该模型接收此前视频帧和动作序列,预测下一个动作token,输出空间包含键盘按键和鼠标移动增量。为处理鼠标位移的庞大状态空间,团队将其分解为X和Y分量,经屏幕宽高归一化后使用指数分箱映射到49个尺寸递增的箱中。小而频繁的移动分入细粒度箱,大而稀少的移动分入粗粒度箱,同时每个鼠标移动token附带预测下一个点击位置,以生成更精确轨迹。

与VLM路线不同,FDM-1完全不使用链式思维推理、字节对编码或工具调用,直接在视频和动作token上运作。这种设计使推理延迟降低,并使其能够处理滚动、3D建模、游戏操控等连续性任务。为评估模型性能,团队构建了一套可运行8万台分叉虚拟机的系统,每小时能完成超过100万次rollout。每台虚拟机配备最小化Ubuntu桌面环境、1个vCPU和8GB内存,一块H100 GPU可同时控制42台。分叉机制允许对操作系统状态做完整内存快照并复制到新虚拟机,从而在相同起始状态下并行运行数千次评估。通过优化GPU与虚拟机布局、使用低延迟VNC配置和自定义Rust输入绑定,团队将屏幕截取到动作执行的往返延迟压缩至11毫秒。

初步评测结果显示,IDM标注数据在鼠标操作、目标点击、符号记忆和UI操控等方面的表现已超过人工标注数据,但在打字和语言理解任务上进步较慢。团队认为这是IDM标注噪声所致,未来计划混合使用两种数据。在自动驾驶微调实验中,FDM-1在不到1小时驾驶数据上微调后,即能用方向键控制汽车在旧金山绕街区转弯,起始准确率为50%(在“无操作/左转/右转”三选一中),明显高于仅有视频编码器而无互联网视频预训练的基线模型。

Standard Intelligence成立于2024年3月,定位为“对齐的AGI实验室”。研究团队核心成员包括Neel Redkar、Yudhister Kumar、Devansh Pandey和Galen Mead。Neel Redkar来自UCLA,高中时期曾凭借碳捕获金属有机框架神经网络研究获得ISEF大奖,并在Notion AI团队实习过。Yudhister Kumar参与过MATS 5.0项目,研究过预言机在合作AI中的应用。在FDM-1之前,团队已开展过两个引人关注的项目:2024年中在旧金山市中心建造的30 PB存储集群,用于存放9000万小时视频数据;2024年11月开源的hertz-dev,一个85亿参数的全双工音频基础模型,在单张RTX 4090上实现了约120毫秒的实际对话延迟。这两个项目分别对应了FDM-1所需的大规模数据基础设施和跨模态学习能力。

FDM-1的技术路径与当前行业主流形成鲜明对比。Anthropic、OpenAI和Google的计算机操控代理本质上是“大脑外接手臂”,利用现有语言/视觉推理模型截图、识别UI元素并生成点击指令。这种方法的优点是能利用通用推理能力,缺点是操作频率低,难以处理高帧率连续控制任务,且受限于截屏分辨率下的UI理解。FDM-1则更接近端到端行为克隆路线,直接从视频到动作,不经过语言中介,天然擅长连续控制任务,但可能缺乏VLM方案的抽象推理和自然语言理解能力。

目前,FDM-1尚未成为可用产品。它不具备指令跟随能力,所有演示均为模型自主探索或执行预设行为,缺乏自然语言驱动展示。团队也未在公开标准化基准(如OSWorld或CUB)上报告结果,所有评测基于内部任务套件,与主流方案缺乏直接可比性。不使用语言模型能力迁移意味着FDM-1可能在CAD建模、游戏操控、连续滚动浏览等任务上有独特优势,但产品化落地时需解决指令理解、任务规划等问题。未来,FDM-1代表的路线与VLM代理路线可能会趋于融合。一个能在30 FPS下连续操控3D建模软件的模型,若加上语言条件化和高级规划模块,或能兼得两种路线优点。在计算机行为建模领域,数据规模和上下文长度的重要性正被重新认识,而Standard Intelligence可能是首个将这两个要素推向极致的团队。

群核科技递表港交所冲刺上市 2025年扭亏为盈剑指全球空间智能第一股
公司已扩展至具身人工智能训练及电子商务产品展示,使公司能够进军更广泛的通用设计及可视化软件市场,其中中国空间设计软件于2024年仅占4.4%。 群核科技主要以空间设计软件市场为目标。根据弗若斯特沙利文的资料,…

2026-02-25

元宵邂逅AI,海淀北部科技盛宴启幕,共赴传统与未来之约
场景应用展区则将实景还原智能制造、智能家居、智慧医疗、智慧教育等“AI+”生态场景,小米智能家具、AI情感伙伴“oubot机器人”、可穿戴智能人工喉、蓝点触控机械臂、一站式AI电影生成平台“FilmActio…

2026-02-25

努比亚官宣MWC 2026发布AI新品,或携豆包技术开启手机新篇章
IT之家 2 月 24 日消息,努比亚今日官宣,将在下个月的 MWC 2026 展会上发布 AI 新品,宣称是“AI手机先锋|定义手机新物种”。 据IT之家此前报道,字节跳动旗下 AI 助手豆包和中兴通讯 …

2026-02-25

iQOO 15R印度登场:大屏强芯长续航,职场青年新选择?
IT之家 2 月 24 日消息,iQOO 现已在印度市场推出 15R 手机,新品主打青年职场用户,配备 6.59 英寸 AMOLED 屏幕、骁龙8 Gen 5 芯片,起售价为 44999 印度卢比(IT之家…

2026-02-25

ASML突破EUV光刻机光源功率瓶颈:2030年晶圆产能或迎50%跃升
快科技2月24日消息,据媒体报道,ASML首席技术专家MichaelPurvis在接受媒体采访时透露,研究人员已成功找到将极紫外(EUV)光刻机光源功率从当前的600瓦提升至1000瓦的方法。 随着光源功率…

2026-02-25

三星Galaxy S26明日发布:全系长效电池加持,影像续航亮点纷呈
在防水方面,三星 Galaxy S26 全系三款机型均通过了 IP68 级防尘防水认证。 而作为阵容中的顶级旗舰,Galaxy S26Ultra 则配备了全系最大的 4855mAh 额定容量电池,其预期续…

2026-02-25

MWC 2026荣耀发布会将启:Magic V6、萝卜手机外还有重磅惊喜待揭晓
去年 11 月,荣耀 CEO 李健出席世界互联网大会乌镇峰会并透露阿尔法战略最新进展,称战略已取得实质性进展:Magic8系列等产品持续推进“打造智慧手机”目标;2026 年荣耀将推出集成 AI 手机、具…

2026-02-25

荣耀Magic8 Pro Air销量超预期,方飞回应定价高:定位高端且受成本影响
但热度高对我们也是好事,说明市场对轻薄的机型还是有需求。 据IT之家此前报道,荣耀 Magic8 Pro Air 在仅 6.1mm的机身中,装下了 5500mAh 青海湖电池,能量密度达 917Wh/L,支…

2026-02-25

OPPO Find N6折叠屏旗舰来袭:卫星通信加持,开启“无痕”新体验
快科技2月24日消息,OPPO首席产品官刘作虎通过Find N6卫星通信版发布微博,正式为这款即将登场的折叠屏旗舰预热。 视觉体验无疑是Find N6最引以为傲的王牌,得益于OPPO在铰链与屏幕技术上的突破,…

2026-02-25