Redian新闻
>
阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

会操纵手机的智能体,又迎来了全新升级!

新的Agent打破了APP的界限,能够跨应用完成任务,成为了真·超级手机助手。

比如根据指示,它可以自行搜索篮球比赛的结果,然后根据赛况在备忘录中撰写文稿。

来自阿里的一篇最新论文,展示了全新手机操纵智能体框架Mobile-Agent,可以玩转10款应用,还能跨越APP完成用户交给的任务,而且即插即用无需训练。

依托多模态大模型,整个操纵过程完全基于视觉能力实现,不再需要给APP编写XML操作文档。

在Mobile-Agent还只有演示视频的时候,就已经让一众网友为之惊艳:

和树莓派结合到一起,将完爆Rabbit R1(一款大模型硬件)。

想象一下如果它支持语音操纵,并且学会了说话……

那么,Mobile-Agent操纵手机到底有多6呢?

支持跨应用任务

目前,Mobile-Agent已经学会了十个APP的操作,以及一些跨应用任务。

比如搜索导航路线、帮忙在购物网站下单,它总能精准找到搜索框并完成目标。

也可以“刷”视频,然后点赞评论,看上去就像熟练的老手。

甚至是安装应用、修改系统设置,也难不倒它。

而Mobile-Agent支持的跨应用操作,也是让“手机助手”更加接近人类……

只见它打开天气预报软件,然后迅速根据读取到的天气数据在备忘录中生成了报告。

而在Mobile-Eval数据集上的测试结果也显示,Mobile-Agent操纵手机的效率已经达到了人类的80%。

研究人员在10款APP和跨应用任务上各测试了三种指令,收集了是否成功(SU)、操作评分(PS)、相对效率(RE)和完成率(CR)四项指标。

其中SU只有成功和不成功两种情况,RE是Agent所需操作步骤数和人类所需步骤数的比值,CR则是Agent相对于人类操作的完成比例,PS则以打分形式得出。

结果,针对三种指令,Mobile-Agent的平均完成率都在90%以上,成功次数也不低于80%。

而且,与此前的智能体不同,Mobile-Agent不需要依赖应用说明文档,而是完全依靠视觉能力实现。

基于GPT-4V实现

具体来说,Mobile-Agent基于最强多模态大模型GPT-4V实现。

通过视觉感知模块,Mobile-Agent从设备的屏幕截图中准确定位视觉和文本元素文本和图标。

这一过程涉及到使用OCR工具和CLIP模型来确定图标的位置。

通过这些视觉信息,Mobile-Agent能够将语言模型生成的操作指令映射到具体的屏幕位置,从而执行点击等操作。

在执行任务时,Mobile-Agent首先接收用户的指令,然后根据当前屏幕截图、操作历史和系统提示生成下一步操作。

这个过程是迭代进行的,直到任务完成。

Mobile-Agent还具备自我规划能力,能够根据操作历史和系统提示自主规划新的任务。

此外,它还引入了自我反思机制,在执行过程中,如果遇到错误或无效操作,它会根据屏幕截图和操作历史进行反思,尝试替代操作或修改当前操作的参数。

目前,研究人员已经在GitHub中开源了Mobile-Agent测试过程中生成的指令记录,程序代码也已经发布,未来还计划推出APP版本。

感兴趣的小伙伴可以试一试了~

GitHub主页:
https://github.com/X-PLUG/MobilAgent
论文地址:
https://arxiv.org/abs/2401.16158

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生疯了!26岁宝马小哥在多伦多高速狂飙264km/h!网友:刷新记录了,应判坐牢264年一条突然爆火的视频招来几百个恶意满满的评论,看完之后不禁心寒为了跨好年,中国人能有多拼?2023短视频界的变革者:上海 AI lab 发布 Vlogger,几句话生成分钟级视频疯了!国外26岁宝马小哥高速狂飙264km/h!网友:刷新记录了,应判坐牢264年!清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力薛之谦拒不认错,六公主点名批评寒假期间如何与孩子和睦相处?这有一份实用操作指南书读了古文背了,还学不好语文?请来人大附老师、高考语文阅卷人教大家怎么破~向完全自主性更进一步,清华、港大全新跨任务自我进化策略让智能体学会「以经验为鉴」奥数逼近金牌水平!谷歌最新AlphaGeometry模型登上Nature!菲尔兹奖得主点赞hé bàng?hé bèng?王友琴: 面对邪恶 - 文革与911AI看视频自动找“高能时刻”,相关论文已被AAAI 2024收录CMU华人18万打造高能机器人,完爆斯坦福炒虾机器人!全自主操作,1小时学会开12种门浓人,nèng死淡人字节版GPTs“扣子”上线;阿里推自主多模态AI代理MobileAgent;王仲远加入智源研究院任院长丨AIGC日报吴磊真人秀的豆瓣高赞评论让我发现:所谓父母子女,不过是一场凑合朦胧AI看视频自动找“高能时刻”|字节&中科院自动化所@AAAI 20247岁的儿子,一回家就要刷短视频……平说 | 评论区有读者表示最近经常咯嗽,我们向他们推荐这款神奇干果,猜猜用后怎么说?!大家再看一下评论,都在表达惊喜和感谢~AI美女广告让人难辨真假!博主被迫录视频自证:真的是AI比刷短视频、B站还能吸引娃!幽默又知识量爆棚,不知不觉变“学霸”~油膩思維之分析批評奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞写《繁花》的金宇澄,也爱刷短视频外卖骑手一晚上花五六十元刷短剧,“一天白跑”“知道是套路,还是忍不住”AI Agent自主设计全新蛋白质登Nature!威斯康星大学让机器人科学家做实验,无需人类帮助一位逝者生前写给自己的一封信华为、阿里、OPPO、喜马拉雅领衔专家深度解析 AI Agent 技术与应用|AICon孩子沉迷“低级快乐”爱刷短视频,大脑严重受损:假期谨防孩子“低级快乐”成瘾被央视点赞、破解精度与速度悖论,普利生用微纳3D打印点亮医疗新思路
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。