近日,智谱技术团队在官方公众号上宣布了一项重大进展,正式开源了名为CogAgent-9B-20241220的基座模型。这款模型是基于GLM-4V-9B进行训练的,专为智能体(Agent)任务设计,具有极高的实用价值。
CogAgent-9B-20241220的最大特点是其独特的输入方式。与以往需要HTML等文本表征的模型不同,它仅需屏幕截图作为输入,便能根据用户指定的任意任务,结合历史操作,精准预测下一步的GUI(图形用户界面)操作。这一特性使得CogAgent能够广泛应用于个人电脑、手机、车机设备等基于GUI交互的各类场景。
相较于去年12月开源的第一版CogAgent模型,新版本在多个方面实现了显著提升。在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面,CogAgent-9B-20241220均展现出了卓越的性能。它还支持中英文双语的屏幕截图和语言交互,进一步拓宽了其应用范围。
CogAgent的输入简洁明了,仅包含三部分:用户的自然语言指令、已执行的历史动作记录和GUI截图。无需任何文本形式表征的布局信息或附加元素标签,这使得模型的输入处理更加高效和便捷。
CogAgent的输出则涵盖了四个方面,包括思考过程、下一步动作的自然语言描述、下一步动作的结构化描述以及下一步动作的敏感性判断。其中,思考过程部分显式输出了模型理解GUI截图和决定下一步操作的思考过程,包括状态和计划两部分,输出内容可通过参数进行控制。自然语言形式的动作描述被加入历史操作记录,便于模型理解已执行的动作步骤。结构化描述则以类似函数调用的形式,描述了下一步操作及其参数,便于端侧应用解析并执行。
在动作空间方面,CogAgent包含了GUI操作和拟人行为两类。GUI操作是基础动作,如左键单击、文本输入等;而拟人行为则是高级动作,如应用启动、调用语言模型等。模型还对下一步动作的敏感性进行了判断,将动作分为“一般操作”和“敏感操作”两类,后者指可能带来难以挽回后果的动作。
为了验证CogAgent-9B-20241220的性能,智谱技术团队在多个数据集上进行了测试,并与GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick等模型进行了比较。结果显示,CogAgent在多个数据集上均取得了领先的结果,充分证明了其在GUI Agent领域的强大实力。