Redian新闻
>
一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

公众号新闻

机器之心专栏

机器之心编辑部


一直以来,让 AI 成为手机操作助手都是一项颇具挑战性的任务。在该场景下,AI 需要根据用户的要求自动操作手机,逐步完成任务。

随着多模态大语言模型(Multimodal Large Language Model,MLLM)的快速发展,以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中,这使得借助多模态 agent 实现手机操作助手成为了可能。

本文将介绍一篇最新的利用多模态 agent 实现 AI 操作手机的研究《Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception》。


  • 论文地址:https://arxiv.org/abs/2401.16158v1
  • 项目地址:https://github.com/X-PLUG/MobileAgent

能力展示

首先为大家介绍 Mobile-Agent 可以自动做哪些有趣的任务。

下面是一个在 YouTube 里找相关视频并发表评论的例子,用户的要求是在 YouTube 里搜索视频,找到一个和某个明星相关的视频,然后发表评论。在整个过程中,Mobile-Agent 没有出现任何错误、不必要或无效的操作,完美地完成了任务。


接下来是一个操作多 App 的例子,用户的要求是先去查询今天的比赛结果,然后根据结果写一个新闻。这个任务的挑战性在于,前后要使用两个 App 完成两个子任务,并且需要将第一个子任务的结果作为第二个子任务的输入。Mobile-Agent 首先完成了查询比赛结果,随后退出浏览器并打开笔记,最后将比赛结果精准地写出,并以新闻的方式呈现。


最后展示一个短视频平台评论的例子,用户的需求是在短视频平台中刷视频,如果刷到了宠物猫相关的视频,就点一个喜欢。在该例子中,Mobile-Agent 出现了两次错误的操作(红色字体指示),然而 Mobile-Agent 及时感知到了错误并且采取了补救措施,最终也完成了任务。


从上述的例子中可以看出,Mobile-Agent 有以下三个能力:

(1)操作定位。对于需要点击特定图标和文本的操作,Mobile-Agent 能够准确点击到对应的位置。
(2)自我规划。根据用户指令和当前屏幕截图,Mobile-Agent 能够自动规划每一步的任务,直到任务完成。
(3)自我反思。如果出现了错误操作或者无效操作,Mobile-Agent 能够及时发现问题并进行补救。

方法

这里详细介绍一下 Mobile-Agent 的设计思路,展示上述三个能力是如何实现的。

操作空间

为了便于将文本描述的操作转化为屏幕上的操作,Mobile-Agent 生成的操作必须在一个定义好的操作空间内。这个空间共有 8 个操作,分别是:

  1. 打开 App(App 名字)
  2. 点击文本(文本内容)
  3. 点击图标(图标描述)
  4. 打字(文本内容)
  5. 上翻、下翻
  6. 返回上一页
  7. 退出 App
  8. 停止

其中,点击文本和点击图标是两个需要操作定位的操作,因此 Mobile-Agent 在使用这两个操作时,必须输出括号内的参数,以实现定位。

操作定位

在大多数情况下,MLLM 已经具备基本的操作手机的能力,在提供手机截图和用户指令后,这些模型往往能够生成正确的操作。然而,MLLM 的操作定位能力十分有限,这体现在:虽然 MLLM 可以产生正确的操作,但当要求 MLLM 输出这些操作将要在屏幕上发生的位置时,MLLM 往往无法提供准确的坐标。现有工作表明,即使是最先进的 GPT-4V,也无法提供准确的操作坐标。

虽然仅通过 MLLM 无法实现自动化操作,但是我们可以利用 MLLM 产生的正确操作,通过额外的操作定位工具实现操作定位。在 Mobile-Agent 中,一共使用了两种视觉感知工具,分别是文字识别模块和图标识别模块,如下图所示:


对于文本定位,Mobile-Agent 借助 OCR 工具来定位出指定文本。如果指定文本在屏幕中多次出现,则会将这些区域裁剪出来并绘制检测框,OCR 工具返回的多个区域将会以多图输入的方式重新做一次选择。对于图标定位,Mobile-Agent 首先借助检测模型,使用检测词 “图标” 将屏幕中所有图标区域裁剪出来,随后根据 Mobile-Agent 提供的图标描述,利用 CLIP 计算这些裁剪区域于描述的相似度,并选择最高的区域作为点击的坐标。

自我规划

Mobile-Agent 以迭代方式完成每一步操作。在迭代开始之前,用户需要输入一个指令。我们根据指令生成整个流程的系统提示。在每次迭代开始时,Mobile-Agent 会获取手机屏幕的截图,通过观察系统提示、操作历史和当前屏幕截图,输出下一步操作。如果 Mobile-Agent 输出的是结束,则停止迭代;否则,继续新的迭代。Mobile-Agent 利用操作历史记录了解当前任务的进度,并根据系统提示对当前屏幕截图进行操作,从而实现迭代式自我规划流程。

自我反思

在迭代过程中,Mobile-Agent 可能会遇到错误,导致无法完成指令。为了提高指令的成功率,Mobile-Agent 引入了一种自我反思方法。这种方法将在两种情况下生效。第一种情况是生成了错误或无效的操作,导致进程卡住。当 Mobile-Agent 注意到某个操作后截图没有变化,或者截图显示了错误的页面时,它会尝试其他操作或修改当前操作的参数。第二种情况是忽略某些复杂指令的要求。当通过自我规划完成所有操作后,Mobile-Agent 会分析操作、历史记录、当前截图和用户指令,以确定指令是否已完成。如果没有,它需要继续通过自我规划生成操作。

实验

Mobile-Eval

为了全面评估 Mobile-Agent 的能力,作者引入了 Mobile-Eval,这是一个基于当前主流应用程序的 benchmark。Mobile-Eval 共包含 10 个移动设备上常用的应用程序。为了评估多应用程序使用能力,作者还引入了需要同时使用两个应用程序的指令。作者为每个应用程序设计了三种指令。第一条指令相对简单,只要求完成基本的应用程序操作。第二条指令在第一条指令的基础上增加了一些额外要求,使其更具挑战性。第三条指令涉及抽象的用户指令,即用户不明确指定使用哪个应用程序或执行什么操作,让 agent 自己做出判断。下面的表中介绍了 Mobile-Eval 中使用的应用程序和指令。


实验结果

下表中展示了 Mobile-Agent 的评测结果。其中 SU 代表指令是否完成,PS 代表正确操作占所有操作的比例,RE 代表 Mobile-Agent 和人类完成指令时分别用了多少步,CR 是 Mobile-Agent 能够完成的操作占人类操作的百分比。在 3 种指令上,分别达到了 91%、82% 和 82% 的成功率,在完成度上,3 种指令都达到了 90% 以上,并且 Mobile-Agent 可以达到 90% 人类的效果。值得注意的是,虽然 PS 平均只有 85% 左右,但是在总共的 33 个任务上,Mobile-Agent 能够完成 28 个,这也说明了自我反思的重要性,即使会出现错误操作,也能够及时发现并纠正,最终完成任务。


其他能力

下面两个例子展示了中文场景下的表现。虽然 GPT-4V 在中文识别上还有待加强,但是在文字不多的简单场景下 Mobile-Agent 也可以完成任务。






© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生交费窗口患者排长队,工作人员却在玩手机!网友炸锅,这家著名医院回应浓人,nèng死淡人字节版GPTs“扣子”上线;阿里推自主多模态AI代理MobileAgent;王仲远加入智源研究院任院长丨AIGC日报单日下跌25%,Mobileye撑不起自动驾驶了吗?别玩手机了!这个游戏让你在过年聚会摆脱尴尬个人感慨之六十八 宪政有没有和玩手机一样,没什么门槛也能快乐的事情有了它们,谁还玩手机啊?!小心被罚1万刀+禁驾!最近大温警察对开车玩手机,真是查得严!惨烈!猛摔、撕裂、涌血…四川玩手机女孩重摔血流一地!马尔代夫和印度声明全然不同,"海上冲突"又起hé bàng?hé bèng?大妈用钥匙划奔驰车一圈, 车主在车内玩手机, 大妈跪地: 别报警, 我没钱赔上厕所玩手机等于在吃屎?真心话大冒险!关于自动驾驶的现状和未来,Mobileye的回答是?女子用钥匙划奔驰车一圈,车主在车内玩手机,女子跪地:不要报警,我没钱赔自己玩手机,怎么要求孩子去看书?Sora正在疯狂学习,人类却只会玩手机天工2.0 MoE大模型发布;苹果开源自动修图神器MGIE;香港公司被AI换脸骗走2亿港元丨AIGC大事日报清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力今晨全美76,000+人手机服务中断,AT&T、Verizon、T-Mobile都沦陷78、长篇民国小说《永泰里》第十六章 生死一线(2)Winter Break Nearing, China Targets Illegal Student Competitions寒假有了它们,谁还玩手机啊?!LLaVA-MoLE:稀疏混合LoRA专家缓解指令微调MLLM中的数据冲突女子急诊科猝死,家属质疑护士玩手机索赔60万!医院:最高30万丨医眼看法6063 血壮山河之随枣会战 第三章 17张元英玩手机的姿势,为啥这么做作???今日神图 | 当你在卧室玩手机时......历史车轮大提速,百年会有王者兴小资投资者宇文通凡的开心生活罕见!苹果开源图片编辑神器MGIE,要上iPhone?身怀绝技?新西兰前总理海上冲浪,不慎摔跤后在水面翻滚…网友评论亮了!晚上关灯玩手机,手机屏幕越亮好还是越暗好?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。