Redian新闻
>
让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机

公众号新闻
机器之心报道
编辑:陈萍

此次,苹果提出的多模态大语言模型(MLLM) Ferret-UI ,专门针对移动用户界面(UI)屏幕的理解进行了优化,其具备引用、定位和推理能力。


移动应用已经成为我们日常生活的一大重要组成部分。使用移动应用时,我们通常是用眼睛看,用手执行对应操作。如果能将这个感知和交互过程自动化,用户也许能获得更加轻松的使用体验。此外,这还能助益手机辅助功能、多步 UI 导航、应用测试、可用性研究等。


为了在用户界面内实现感知和交互的无缝自动化,就需要一个复杂的系统,其需要具备一系列关键能力。


这样一个系统不仅要能完全理解屏幕内容,还要能关注屏幕内的特定 UI 元素。以视觉理解为基础,它应当有能力进一步将自然语言指令映射到给定 UI 内对应的动作、执行高级推理并提供其交互的屏幕的详细信息。


为了满足这些要求,必须开发出能在 UI 屏幕中确定相关元素位置并加以引述的视觉 - 语言模型。其中,确定相关元素位置这一任务通常被称为 grounding,这里我们将其译为「定基」,取确定参考基准之意;而引述(referring)是指有能力利用屏幕中特定区域的图像信息。


多模态大型语言模型(MLLM)为这一方向的发展带来了新的可能性。近日,苹果公司一个团队提出了 Ferret-UI。


  • 论文地址:https://arxiv.org/pdf/2404.05719.pdf

  • 论文标题:Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs


这应当是首个专门针对 UI 屏幕设计的用于精确引述和定基任务的 MLLM,并且该模型能解读开放式的语言指令并据此采取行动。他们的这项工作聚焦于三个方面:改进模型架构、整编数据集、建立评估基准。


实验表明,他们的这种方法效果还挺不错,如图 1 所示:Ferret-UI 能够很好地处理从基础到高级的 11 种任务,从简单的寻找按钮到复杂的描述具体功能。


下面来看具体方法。


方法概览


Ferret-UI 基于 Ferret,而 Ferret 是一个擅长处理自然图像的引述和定基任务的 MLLM,并且其支持多种形状和细节层级。


Ferret 包含一个预训练的视觉编码器(如 CLIP-ViT-L/14)和一个仅解码器语言模型(如 Vicuna)。


此外,Ferret 还采用了一种独特的混合表征技术,可将指定区域转换为适合 LLM 处理的格式。其核心是一个可感知空间的视觉采样器,能够以不同稀疏层级管理区域形状的连续特征。


为了将 UI 专家知识集成到 Ferret 中,苹果团队做了两方面工作:(1)定义和构建 UI 引述和定基任务;(2)调整模型架构以更好地应对屏幕数据。


具体来说,为了训练模型,Ferret-UI 包含多个 UI 引述任务(比如 OCR、图标识别、小部件分类)和定基任务(比如寻找文本 / 图标 / 小组件、小组件列表);这些任务可帮助模型很好地理解手机 UI 并与之交互。之前的 MLLM 需要外部检测模块或屏幕视图文件,而 Ferret-UI 不一样,它自己就能搞定,可以直接输入原始屏幕像素。这种方法不仅有助于高级的单屏幕交互,而且还可支持新应用,比如提升支持残障人士的辅助功能。


研究 UI 数据集还为该团队带来了另外两个有关建模的见解:(1)手机屏幕的纵横比(见表 1a)与自然图像的不一样,通常更长一些。(2)UI 相关任务涉及很多对象(即图标和文本等 UI 组件),并且这些组件通常比自然图像中的对象小得多。


举个例子,很多问题涉及的图标的面积只占整个屏幕的 0.1%。因此,如果只使用单张重新调整了大小的低分辨率全局图像,可能会丢失很多重要的视觉细节。


为了解决这个问题,该团队引入了 any resolution(任意分辨率 /anyres)这一思想。


具体来说,基于手机的原始纵横比,他们选择了两种网格配置:1x2 和 2x1。给定一张屏幕图像,选取最接近其原始纵横比的网格配置。之后,调整屏幕图像大小,使其匹配所选的网格配置,然后再将其切分为子图像(sub-image)。很明显,纵向屏幕会被水平切分,而横向屏幕会被垂直切分。然后,使用同一个图像编码器分开编码所有子图像。接下来 LLM 就可以使用各种粒度的所有视觉特征了 —— 不管是完整图像还是经过增强的细节特征。


图 2 给出了 Ferret-UI 的整体架构,包括任意分辨率调整部分。


数据集和任务构建


苹果团队构建了一个数据集来训练和评估模型。


收集 UI 数据


UI 屏幕。该团队不仅收集了 iPhone 屏幕,也收集了安卓设备的屏幕。


其中安卓屏幕数据来自 RICO 数据集的一个子集,并根据该团队的分割方案进行了处理。总共有 26,527 张训练图像和 3080 张测试图像。


iPhone 屏幕则来自 AMP 数据集,有不同大小,共 84,685 张训练图像和 9,410 张测试图像。


UI 屏幕元素标注。他们使用一个预训练的基于像素的 UI 检测模型对收集到的屏幕数据进行了细粒度的元素标注。

 

任务构建


下面将简单描述该团队是如何将 UI 屏幕和相应标注转换成可用于训练 MLLM 的格式。这有三种方法。


方法一:调整 Spotlight 的格式。基于论文《Spotlight: Mobile ui understanding using vision-language models with a focus》,他们取用了 Spotlight 中的三个任务:screen2words、widgetcaptions 和 taperception,并将它们的格式调整为了对话式的一对对问答。具体来说,为了创建 prompt,他们使用了 GPT-3.5 Turbo 来处理他们编写的基础 prompt:


每个训练示例都采样了相应任务的 prompt,并搭配了原始原图像和基本真值答案。


方法二:基础任务。除了 Spotlight 任务,该团队还创建了 7 个新的 UI 任务:用于引述的 OCR、图标识别和小部件分类;用于定基的小部件列表、查找文本、查找图标、查找小部件。他们将引述(referring)任务定义为输入中有边界框的任务,而将定基(grounding)任务定义为输出中有边界框的任务。


他们还使用 GPT-3.5 Turbo 扩展了每个任务的基础 prompt,以引入任务问题的变体版本。图 3 给出了数据生成的详情。每个任务的训练样本数量见表 1b。


方法三:高级任务。为了让新模型具备推理能力,他们跟随 LLaVA 的做法并使用 GPT-4 额外收集了四种其它格式的数据。图 4 展示了高级任务的训练数据生成过程。


这四个任务是:详细描述、对话感知、对话交互和功能推断


实验结果


该团队进行了实验研究和消融研究,并对结果进行了详细分析。


设置:Ferret-UI-anyres 是指集成了任意分辨率的版本,Ferret-UI-base 是指直接采用 Ferret 架构的版本,Ferret-UI 是指这两种配置。训练使用了 8 台 A100 GPU,Ferret-UI-base 耗时 1 天,Ferret-UI-anyres 耗时约 3 天。


结果


实验比较了 Ferret-UI-base、Ferret-UI-anyres、Ferret 和 GPT-4V 在所有任务上的表现;另外在高级任务上参与比较的模型还有 Fuyu 和 CogAgent。


表 2 总结了实验结果,其中的数据是模型在每个类别中的平均表现。


图 5 和表 3 给出了在具体的基础和高级任务上的表现详情。


从这些图表可以看到,Ferret-UI 的表现颇具竞争力。尤其是任意分辨率(anyres)的加入能让 Ferret-UI-base 的表现更上一层楼。


消融研究


表 4 给出了消融研究的详情。


从表 4a 可以看到,基础任务能够帮助提升模型解决高级任务的能力。


而表 4b 则表明,加入基础任务数据并不会明显改变模型在三个 Spotlight 任务上的性能。其原因可能是基础任务的响应中使用了简短且高度专业化的 UI 相关术语,这与 Spotlight 任务要求的响应风格不一致。而如果进一步整合高级任务,便能够在 Spotlight 任务上得到最佳结果,即便这些高级任务数据完全来自 iPhone 屏幕。


该团队最后对 Ferret-UI 的结果进行了详细的分析,进一步验证了其在引述和定基任务上的出色表现,详情参阅原论文。






© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
如何不用经纪人卖自家房子 (之一)再回首 (二十四)我和老伴(十二)DeepMind首发游戏AI智能体SIMA!只用自然语言就能玩转「山羊模拟器」联汇科技OmChat:突破长视频理解极限的多模态大模型轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便上交&阿里:掀开多模态大模型的头盖骨,解密黑盒模型推理过程Chase Sapphire Preferred (CSP) 信用卡【小道消息:85k Offer 将要来了】数据科学|十二大可以写进简历的名企实战项目+编程技巧+模型理解,全方位提升你的综合能力!五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计字节、华科发布多语种视觉文本理解新基准,多模态大模型还有很长的路要走AI早知道|元象开源首个多模态大模型XVERSE-V;信通院发布国内首个汽车大模型标准今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理核心代码仅三行!即插即用的视觉语言连接器,一键提升多模态大模型可以闻到味道的手机屏幕,你见过吗?纽约琐事(十)一跃而过国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入大模型理解复杂表格,字节&中科大出手了睡前关灯玩手机,手机屏幕越亮好还是越暗好?CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力晚上关灯玩手机,手机屏幕越亮好还是越暗好?ICLR上新 | 强化学习、扩散模型、多模态语言模型,你想了解的前沿方向进展全都有中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生拿捏:中国职场领导的宽容与操控手段对话南洋理工大学安波教授:如何让大语言模型适应动态环境?丨IJAIRR数据分析|一线数据科学家教研组用心研发,编程技巧+模型理解+实战项目,全方位提升数据分析综合能力!国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题剑桥大学:基于语音的大模型攻击,轻松“操纵”多模态大模型8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare今日开课|针对岗位要求,编程技巧+模型理解+实战项目,全方位提升求职综合能力!颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑个人感慨之120 香港人大政协
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。