Redian新闻
>
清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力

清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力

公众号新闻

作者 | 凌敏

近日,清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent——CogAgent,CogAgent 是一个通用的视觉理解大模型,具备视觉问答、视觉定位(Grounding)、GUI Agent 等多种能力,可接受 1120×1120 的高分辨率图像输入。在 9 个经典的图像理解榜单上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成绩,并在涵盖电脑、手机的 GUI Agent 数据集上(含 Mind2Web,AITW 等),大幅超过基于 LLM 的 Agent,取得第一。

在网页 Agent 数据集 Mind2Web 上的性能

在手机 Agent 数据集 AITW 上的性能

为了更好地促进多模态大模型、Agent 社区的发展,目前团队已将 CogAgent-18B 开源至 GitHub 仓库,并提供了网页版 Demo。

  • 论文链接:https://arxiv.org/pdf/2312.08914.pdf

  • GitHub 项目地址(含开源模型、网页版 Demo):https://github.com/THUDM/CogVLM

视觉 GUI Agent

基于语言预训练模型(LLM)的 Agent 是当下热门的研究话题,其具备良好的应用前景。但受限于 LLM 的模态,它只能接受语言形式的输入。拿网页 Aagent 为例,WebAgent 等工作将网页 HTML 连同用户目标(例如“Can you search for CogAgent on google”)作为 LLM 的输入,从而获得 LLM 对下一步动作的预测(例如点击按钮,输入文本)。

然而,一个有趣的观察是,人类是通过视觉与 GUI 交互的。比如,面对一个网页,当给定一个操作目标时,人类会先观察他的 GUI 界面,然后决定下一步做什么;与此同时,GUI 天然是为了人机交互设计的,相比于 HTML 等文本模态的表征,GUI 更为直接简洁,易于获取有效信息。也就是说,在 GUI 场景下,视觉是一种更为直接、本质的交互模态,能更高效完整提供环境信息;更进一步地,很多 GUI 界面并没有对应的源码,也难以用语言表示。因此,若能将大模型改进为视觉 Agent,将 GUI 界面以视觉的形式直接输入大模型中用于理解、规划和决策,将是一个更为直接有效、具备极大提升空间的方法。

CogAgent 可以实现基于视觉的 GUI Agent,其工作路径与能力如下:

CogAgent 模型同时接受当前 GUI 截图(图像形式)和用户操作目标(文本形式,例如“search for the best paper in CVPR 2023”)作为输入,就能预测详细的动作,和对应操作元素的位置坐标。可以应用于包括电脑、手机的各种场景。受益于 GUI Agent 的可泛化性,CogAgent 能在各类没见过的场景与任务上都取得良好的性能。论文中展示了更多示例,覆盖了 PPT、手机系统、社交软件、游戏等各类场景

CogAgent 的模型结构
及训练方法

据介绍,CogAgent 的模型结构基于 CogVLM。为了使模型具备对高分辨率图片的理解能力,可以看清 720p 的 GUI 屏幕输入,团队将图像输入的分辨率大幅提升至 1120×1120(以往的模型通常小于 500×500,包括 CogVLM,Qwen-VL 等)。然而,分辨率的提升会导致图像序列急剧增长,带来难以承受的计算和显存开销——这也是现有多模态预训练模型通常采用较小分辨率图像输入的原因之一。

对此,团队设计了轻量级的“高分辨率交叉注意力模块”,在原有低分辨率大图像编码器(4.4 B)的基础上,增加了高分辨率的小图像编码器 (0.3 B),并使用交叉注意力机制与原有的 VLM 交互。在交叉注意力中,团队也使用了较小的 hidden size,从而进一步降低显存与计算开销。

结果表明,该方法可以使模型成功理解高分辨率的图片,并有效降低了显存与计算开销。在消融实验中,团队还比较了该结构与 CogVLM 原始方法的计算量。结果表明,当分辨率提升时,使用文中提出的方案(with cross-module,橙色)将会带来极少量的计算量增加,并与图像序列的增长成线性关系。特别的,1120×1120 分辨率的 CogAgent 的计算开销(FLOPs),甚至比 490×490 分辨率的 CogVLM 的 1/2 还要小。在 INT4 单卡推理测试中,1120×1120 分辨率的 CogAgent 模型占用约 12.6GB 的显存,相较于 224×224 分辨率的 CogVLM 仅高出不到 2GB。

在数据方面,除了 CogVLM 用到的 image caption 数据集之外,团队在文本识别、视觉定位、GUI 图像理解方面进行了数据扩充与增强,从而有效提升了 GUI Agent 场景下的性能。(CogAgent 的预训练和微调数据的采集、生成方法详细介绍于论文的 2.2 和 2.3 部分。)


 活动推荐

《行知数字中国数字化转型案例集锦【第二期】》重磅发布,覆盖多个行业,对话一线专家,挖掘企业数字化的实践故事,揭秘数字化时代背景下如何重塑企业组织、技术与人才。扫描下方二维码,关注「InfoQ 数字化经纬」公众号,回复「行知数字中国」即可解锁全部内容。



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先智谱 AI 推出新一代基座大模型 GLM-4,能力逼近 GPT-4,配备多模态、长文本和智能体思谋进博会首秀:发布全球首个工业多模态大模型,现场与松下、江森自控签署全面战略合作无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩任意文本、视觉、音频混合生成,多模态有了强大的基础引擎CoDi-2骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM夏婳:两情难相知(四十三)低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug理想汽车发布史上最大更新:多模态大模型首次上车,无人泊车即将推送大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B红色日记 批评高潮 2.16-28ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」,正探索与机器人结合北京内推 | 阿里淘天集团招聘大模型/多模态大模型算法实习生首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型震惊!!!谷歌发布最强多模态大模型Gemini横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%世界顶尖多模态大模型开源!又是零一万物,又是李开复说说李克强的两岸关系政策文末送书 | 及时雨!《多模态大模型:技术原理与实战》首发上市聊点科学(2)——宇宙起源看了个新建房,basement 地面渗水严重,agent 说会fix, 就怕后患啊AI早知道|苹果播客应用新增转录功能;上海智能实验室推图文多模态大模型;国产短剧AI换脸出海降本增效无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务彭丽媛至哀总理; 哈喽喂看差异骁龙888实时运行!美团&浙大等打造移动端多模态大模型MobileVLM腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。