Redian新闻
>
从文字模型到世界模型!Meta新研究让AI Agent理解物理世界

从文字模型到世界模型!Meta新研究让AI Agent理解物理世界

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 新智元
编辑 | Mindy

LLM已经可以理解文本和图片了,也能够根据它们的历史知识回答各种问题,但它们或许对周围世界当前发生的事情一无所知。
现在LLMs也开始逐步学习理解3D物理空间,通过增强LLMs的「看到」世界的能力,人们可以开发新的应用,在更多场景去获取LLMs的帮助。
AI Agent,比如机器人或是智能眼镜,它们可以通过感知和理解环境来回答一些开放性问题,比如「我把钥匙放哪里了?」
这样的AI Agent需要利用视觉等感知模式来理解其周围环境,并能够用清晰的日常语言有效地与人交流。
这类似于构建一个「世界模型」,即AI Agent可以对外部世界产生它自己的内部理解方法,并能够让人类通过语言查询。
这是一个长期的愿景和一个有挑战的领域,也是实现人工通用智能的重要一步。
Meta的新研究OpenEQA(Embodied Question Answering)框架,即开放词汇体验问答框架,为我们探索这个领域提供了新的可能。

EQA是什么?

EQA(Embodied Question Answering)是一种工具,用于检查AI Agent是否真正理解周围世界发生的事情。
毕竟,当我们想要确定一个人对概念的理解程度时,我们会问他们问题,并根据他们的答案形成评估。我们也可以对实体AI Agent做同样的事情。
比如下图的一些问题实例:

[物体识别]
问:椅子上的红色物体是什么?
答:一个背包
[属性识别]
问:在所有的椅子中,这把椅子的独特颜色是什么?
答:绿色
[空间理解]
问:这个房间可以容纳10个人吗?
答:可以
[物体状态识别]
问:塑料水瓶是开着的吗?
答:不是
[功能推理]
问:我可以用铅笔在什么东西上写?
答:纸
[世界知识]
问:最近有学生在这里吗?
答:有
[物体定位]
问:我的未喝完的星巴克饮料在哪里?
答:在靠前的白板旁边的桌子上
除此之外,EQA也更加有直接的应用。
比如,当你准备出门却找不到工卡时,就就可以问智能眼镜它在哪里。而AI Agent则会通过利用其情节记忆回答说徽章在餐桌上。
或者如果你在回家的路上饿了,就可以问家庭机器人是否还剩下水果。根据其对环境的主动探索,它可能会回答说水果篮里有成熟的香蕉。
这些行为看上去很简单,毕竟LLMs在许多人认为具有挑战性的任务中表现出色,比如通过SAT或律师考试。
但现实是,即使是今天最先进的模型,在EQA方面也很难达到人类的表现水平。
这也是为什么Meta同时发布了OpenEQA基准测试,让研究人员可以测试他们自己的模型,并了解它们与人类的表现相比如何。

OpenEQA:面向AI Agent的全新基准

开放词汇体验问答(OpenEQA)框架是一个新的基准测试,通过向AI Agent提出开放词汇问题来衡量其对环境的理解。
该基准包含超过1600个非模板化的问题和答案对,这些问题和答案来自人类注释者,代表了真实世界的使用情况,并提供了180多个物理环境的视频和扫描指针。
OpenEQA包含两个任务:
(1)情节记忆EQA,在这个任务中,一个实体的AI Agent根据其对过去经历的回忆回答问题。
(2)主动EQA,在这个任务中,AI Agent必须在环境中采取行动来收集必要的信息并回答问题。
OpenEQA还配备了LLM-Match,这是一种用于评分开放词汇答案的自动评估指标。
下方是LLM-Match打分的流程,通过问题和场景的输入,AI大模型会给出回答,该回答会去和人类的回答作对比,然后得到相应的分数。

现阶段VLM的表现

一般来说,AI Agent的视觉能力是借助于视觉+语言基础模型(VLM)。
研究员使用OpenEQA来评估了几种最先进的VLM,发现即使是性能最好的模型(如GPT-4V达到48.5%),与人类的表现(85.9%)之间也存在着显著差距。
值得注意的是,对于需要空间理解的问题,即使是最好的VLM也几乎是「盲目」的,即它们的表现几乎不比仅文本模型更好。
例如,对于「我坐在客厅的沙发上看电视。我的身后是哪个房间?」这个问题,模型基本上是随机猜测不同的房间,没有从视觉情景记忆中获得对空间的理解。
这说明VLM其实是回归到文本中去捕捉关于世界的先验知识,以此来回答视觉问题。视觉信息并没有给它们带来实质性的好处。
这也说明,AI Agent在目前这个阶段,还达不到能完全理解物理世界的能力。
但气馁还为时过早,OpenEQA仅仅是第一个开放词汇的EQA基准。
通过OpenEQA将具有挑战性的开放词汇问题与以自然语言回答的能力结合起来,可以激发更多的研究,帮助AI理解并交流关于它所看到的世界的信息,也有助于研究人员跟踪多模态学习和场景理解的未来进展。
也不是没有可能,突然哪天AI Agent又给我们带来一个大惊喜呢?
参考资料:
https://ai.meta.com/blog/openeqa-embodied-question-answering-robotics-ar-glasses/

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ControlNet作者搞起大模型!解决大家不会写提示词的痛点!GPT-4不是世界模型,LeCun双手赞同!ACL力证LLM永远无法模拟世界【今日天下0521】Dartmouth读PhD的中国女生走失;BBC揭韩国男星阴暗细节;看四娃娘和名校IT理工帅哥恋爱有感猫贝贝之歌(1)AI视觉的“大一统”:从CV到多模态,从行业大模型到机器人,旷视如何布局?喝到世界咖啡师冠军做的咖啡;性价比高的餐厅,30刀3菜1汤;探Holt Renfrew的VIP Event|VlogTransformer解码真实场景!Meta推出70M参数SceneScript模型好朋友意外离世傅平自传体回忆录(25)精彩纷呈在最后,未完待续,敬请关注!Sora是世界模拟器吗?全球首篇综述全面解析通用世界模型清华、华为等提出iVideoGPT:专攻交互式世界模型离世界模型更近一步!Meta开源OpenEQA,评估AI Agent情景理解能力世界模型也扩散!训练出的智能体竟然不错人大 Sora 思辩:Sora 到底懂不懂物理世界?用GPT-3.5生成数据集!北大天工等团队图像编辑新SOTA,可精准模拟物理世界场景3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生这家世界模型公司发布中国版Sora级视频生成大模型,走向世界模型打造新一代数据引擎让AI进入物理世界,首届中国具身智能大会展望智能新纪元首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作AI巨浪,终究让艺术学科变天了!机器人,才是AI世界模型的星辰大海猫贝贝之歌(3)招聘重启!Meta (US) 开放Research Scientist Intern岗位浓人,nèng死淡人猫贝贝之歌(2)- 夜太黑清理世界名画,最好的方式是吐口水?……这就是我们不能触摸作品的原因?最新大模型论文合集!谷歌/微软/Meta/苹果/英伟达/阿里最新研究报告!大模型到底哪家强?达摩院推出“全自动竞技场Auto Arena”评测框架LeCun怒斥Sora是世界模型,自回归LLM太简化了免费在线体验Meta LIama 3大语言模型!GpuMall狂送10万代金券!Sora世界模型 与 OpenAI宫斗戏 - AI到底有多强大?骄傲!安省11年级华裔女孩代表加拿大出战STEM!研究让导师叫好!LeCun新作:分层世界模型,数据驱动的人型机器人控制通用世界模型问世:不学习就能生成新领域视频,可实时控制
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。