Redian新闻
>
首个获得驾照的AI!Agent担任私人助理样样精通,还能帮助考试作弊

首个获得驾照的AI!Agent担任私人助理样样精通,还能帮助考试作弊

公众号新闻



  新智元报道  

编辑:alan
【新智元导读】最近,Jim Fan转发了斯坦福博士生开发的一款AI Agent,它在美国加州的驾照考试现场独立通过了考试。AI一小步,人类一大步,我们一起来看一下吧。

关于当前基于Transformer的LLM能走多远的问题,人们仍在争论不休。

与此同时,另一边,能够帮助人们处理各项工作的AI Agent已经悄然走入人们的生活。

以前的ChatGPT等大模型,热衷于在人类考试中刷分以凸显自己的实力,而不久前,又有一位AI Agent通过了美国加州的驾照考试。

——但与之前不同的是,这次的AI Agent是在监考员的眼皮底下帮助人类成功作弊,通过考试!

对此,AI Agent的作者表示,「很高兴与大家分享一项不朽的成就,我们的 Web AI 代理刚刚通过在线加州驾驶考试创造了历史,成为第一个在加州获得驾驶执照的虚拟 AI!」

「这标志着一个开创性的时刻:人工智能首次完全自主地完成现实世界的人类知识任务,这是人工智能的一小步,也是人类的一大步。」

虽然多少有点夸张,但不得不说,还是挺神奇的。

从图中我们可以看到,AI Agent完全靠自己审题、作答、并点击下一道题。

对于这样成功的表现,Jim Fan也是表达了祝贺:

从去年开始,一些加州居民可以在网上参加驾驶考试的笔试部分,免去了他们需要花时间去考试机构所在地的麻烦。

为了防止作弊,官方采取了一些相应的措施,要求考生必须允许机动车辆管理局(DMV)访问电脑的摄像头,以记录考试过程;并在考试期间共享屏幕。

——这样参加考试的人就无法在考试中途打小抄了。

然而,还是有人在监考员的眼皮底下作弊成功,而助手正是我们前面介绍的AI Agent(到底谁是助手也不好说)。

这个AI Agent来自一家名为 MultiOn 的初创公司,由 Div Garg 创立。

Div Garg是斯坦福大学的博士辍学生,他最初创办 MultiOn 是为了实现日常任务的自动化,比如从亚马逊订购厕纸或安排日历约会。

MultiOn 的产品可以控制用户的浏览器,完成诸如在 Uber Eats 上订餐或进行 Resy 预订等任务。

——需要注意的是,这并不是我们平时会见到的浏览器脚本,Agent背后依托的是AI的能力。

这项服务目前是免费的,AI Agent位于浏览器的右下角,你可以在这里输入命令,这与微软的必应 ChatGPT 助手完全不同。

这个AI Agent可以作为用户的私人助理,它提供的大部分功能都很有用,即使不能完全改变生活。

上个月在旧金山的一家咖啡馆演示 MultiOn 时,Garg 用它向 Facebook 上的熟人群发了生日快乐信息。

随后又利用 MultiOn 安排了与记者的下一次会面,目的正是向大众演示如何利用AI Agent通过车管局的正式驾驶考试。

虽然看上去只不过是AI答对了一些问题,但实际上要达成这个目的并不简单。

一般来说,AI需要一段长长的提示,才能选择正确答案,然后点击进入下一个问题,而且AI不能有多余的动作,以免被发现作弊。

平心而论,目前的这个AI Agent仍然需要人的手指随时待命,以防出错。根据设置,MultiOn 在出错时会停止运行,这时就需要人类测试者自己按下继续按钮。

另外,它也无法解析图像,所以如果遇到了要求识别交通标志的问题,都会回答错误。

当前的AI虽然拥有完善的知识,但通常需要严格的提示才能进行下一步。所以,对于这场考试来说,答对有关正确驾驶规范的难题是一方面,点击按钮进入下一个问题更体现出它的能力。

Garg认为这依靠了很多运气。这是 MultiOn 第一次参加正式的州立考,最终,MultiOn 在 46 道题中只错了五六道,正式达到了通过标准。

当然,根据加州法律,以这种方式使用该技术可能构成伪证罪。因为在考试之前会要求考生声明自己将亲自作答。

加利福尼亚州车管局曾在一份声明中写道:「作为一项防欺诈措施,在线考试参与者必须验证自己的身份,并同意在整个考试过程中接受监控。随着技术的发展,DMV 将继续更新保障措施」。

人工智能助手的未来

MultiOn在通过DMV考试之前,就已经引起了OpenAI及其首席执行官Sam Altman的注意,Garg 表示正在与OpenAI密切合作。

但就目前而言,MultiOn对部署采取了谨慎的态度,这次成功的测试与其说是一项关键功能,不如说是一个概念验证。

Garg希望确保对自己产品的控制,从而避免出现恶意使用的情况。他希望人们不要在各种考试中作弊,因此他计划对普通用户禁用任何类似的「灰色地带」功能。

与主要存在于 ChatGPT 沙盒中的 OpenAI GPT 助手不同,MultiOn 助手是作为谷歌 Chrome 浏览器的扩展程序自主运行的。用户必须授予它有效控制电脑的权限。

「我们的技术直接在用户的电脑上运行,它实际上是在控制,在做事,很多事情都可能出错」。

目前,大约有 3 万人注册试用了该应用的测试版。Garg预计 MultiOn 还会有更多新功能,比如加强版移动语音助手和内置 MultiOn 技术的浏览器。

——不过,利用它在 SAT 或 ACT 等考试中作弊的可能性也不大,因为这两个考试机构都要求学生到考试中心参加考试。

MultiOn的官网上还向我们展示了产品的一些基本而有趣的用途,比如查询天气:

更实用一点的是下面这个例子,用户可以直接告诉Agent帮忙订一个汉堡,后面的所有事情都完全不用操心了。

包括选择店铺、选择商品、下订单和支付等等,Agent一条龙服务,统统帮你搞定——确实称得上是私人助理了。

除了这个演示,官网还列出了其他的一些功能:

比如线上购物、文章摘要、查找并播放音乐和视频、在线互动等。

有网友使用MultiOn在亚马逊买了一本书,并表示「太疯狂了」。

而另一位网友使用MultiOn自动搜索并播放想要的视频,还自动进行了评论:

有了这次成功的驾照考试经历,Garg也是野心勃勃地表示,「明年我们的AI Agent就可以驾驶你的特斯拉了」!

不知道大家对于未来的AI Agent又抱有怎样的幻想呢?

参考资料:
https://twitter.com/DivGarg9/status/1728854189873549809
https://sfstandard.com/2023/11/14/multion-ai-assistant-california-driving-test/



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
比尔·盖茨重磅发文:Bye-bye软件时代,5年内进入AI个人助理时代电子烟既安全又能帮助戒烟?世卫组织:必须严控!会致癌什么运动最能帮助孩子长高?比跑步游泳更有效的是它双11特惠|国际重奢疯了?!𝘼𝙦𝙪𝙖𝙨𝙘𝙪𝙩𝙪𝙢(雅格狮丹)90%白鸭绒羽绒服,保暖防泼水,1折开抢!开罚!知名公司上千员工涉考试作弊;造车新势力11月“成绩单”出炉丨大公司动态缅甸烽火不断 200万人流离失所 当地牧者:我要做「能帮助别人」的难民家务样样精通!好想拥有这款斯坦福家用机器人卡屋2023新款电压力锅!蒸煮炖样样精通,一锅=高压锅+电煮锅+电饭锅!首个精通3D任务的具身通才智能体:感知、推理、规划、行动统统拿下"妈妈让我来自首",7岁男孩在派出所写下"bǎozhèng书"谷歌“最强”AI诞生!听、说、看、写样样精通,还能教人做饭……一机多用的养生壶太香了!火锅、泡面、冲奶、炖煮样样精通【案例】加州大学河滨分校考试作弊当场被抓,如何不凉凉?一百五十八 待分配瞭望·治国理政纪事|打造黄土高原生态治理样板撒谎、带节奏样样精通!清华让七个AI玩狼人杀,个个都有小心思Costco买的和中国带回来的月饼,和大家一起共庆佳节!一百五十九 分别AI,美丽新世界?养虎为患?Science的125个科学问题,mRNA疫苗回答了一个获诺奖,还剩124个!一个好人|芒格私人助理回忆芒格晚讯 |《自然》:人工智能帮助发现新型候选抗生素、凯实生物创业板IPO终止在加拿大未成年也能拿驾照?4名中国小留学生驾豪华奔驰死亡全剖析!关于国外驾照这些你必须了解下...体验 | 我用内地驾照换香港驾照,实现50+国家开车自由!【案例】伊利诺伊香槟分校考试作弊被抓,如何申诉?雷军辟谣冰冷的40亿:人生不是爽文;普华永道上千员工涉培训考试作弊被罚700万美元;腾讯“小世界”将更名为“QQ短视频”丨邦早报【社会】法国人爱存前任私密照,分手后删还是不删?PNAS | 癌细胞的压缩或是一把双刃剑 既能帮助也能阻碍癌症的进展专访丨积家CEO Catherine Rénier:情感联结和艺术表达对腕表也至关重要巴以冲突、俄乌战争的背景下,学什么能帮助我们理解这个世界?心理学从入门到精通,5本全掌握!(豆瓣9.0+)【天与湖】 一组小诗 6机器人能帮助人类构建更健康、更美好的世界吗?|投资笔记vivo OriginOS 4预览版体验:蓝心大模型进手机,手机变成真·个人助理国际重奢卷疯了?!𝘼𝙦𝙪𝙖𝙨𝙘𝙪𝙩𝙪𝙢(雅格狮丹)90%白鸭绒羽绒服,保暖防泼水,1折开抢!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。