Redian新闻
>
ChatGPT 又遇劲敌!谷歌发布史上最大 AI 模型 PaLM-E:5620 亿参数,无需特殊训练即可操纵机器人

ChatGPT 又遇劲敌!谷歌发布史上最大 AI 模型 PaLM-E:5620 亿参数,无需特殊训练即可操纵机器人

公众号新闻
作者 | BENJ EDWARDS
译者 | 核子可乐
策划 | 冬梅

本周一,来自谷歌和柏林工业大学的 AI 研究团队推出了 PaLM-E,这是一种多模态视觉语言模型(VLM),具有 5620 亿个参数,集成了可控制机器人的视觉和语言能力。据称这是有史以来规模最大的视觉语言模型,能够执行各种任务且无需重新训练,这套与 ChatGPT 有几分相似的 AI 模型新增视觉功能。

根据谷歌的介绍,只要给出一条高级命令,比如“把抽屉里的脆片拿给我”,PaLM-E 就能为机械手臂平台(由 Google Robotics 开发)生成相应的操纵指令。

在演示视频中,由 PaLM-E 控制的机械臂正伸手取一袋薯片。

PaLM-E 的基本工作原理,是分析机器人摄像头采集到的数据,且无需对场景表示做任何预处理。该模型消除了对数据预处理和标注的需求,有望将机器人的自主水平提升至新的层次。

谷歌称,该模型还具有一定弹性,能够对周边环境做出反应。例如,PaLM-E 模型能够引导机器人从厨房中取出袋装薯片,并通过将 PaLM-E 集成至控制回路当中,能够应对执行期间可能发生的意外状况。

此外,同一套 PaLM-E 模型能成功通过复杂的指令序列实现了对机器人的自主控制,以往这类任务只能由人类引导完成。谷歌在研究论文中解释了 PaLM-E 如何将指令转化为行动:

我们展示了 PaLM-E 面对具有挑战性的多样移动操作中,表现出的实际性能。我们主要参考 Ahn 等人的设置方案(2022 年),机器人需要根据人类的指令规划一系列导航与操作动作。例如,给出指令“我把饮料弄洒了,能给我拿东西清理一下吗?”,机器人就会规划一连串“1. 找清洁棉;2. 捡起清洁棉;3. 递给用户;4. 放下清洁棉”的行动。受任务启发,我们设计出三个用例来测试 PaLM-E 的具身推理能力,具体包括可供性预测、故障检测和长期规划。低级策略来自 RT-1(Brohan 等人,2022 年),这是一套采用 RGB 图像加自然语言指令、能够向末端执行器输出控制命令的 transformer 模型。

PaLM-E 到底是个啥?

PaLM-E 是一款下一令牌预测器,取名“PaLM-E”是因为其基于谷歌的 PaLM 大语言模型(LLM,与 ChatGPT 的底层技术相似)。谷歌进一步向其中添加了感官信息和机器人控制功能,帮助 PaLM 实现了“具身化”。

由于基于语言模型,PaLM-E 会进行连续观察,例如接收图像或传感器数据,并将其编码为一系列与语言令牌大小相同的向量。如此一来,模型就能继续以处理语言的方式“理解”感官信息。

除了 RT-1 机器人 transformer 之外,PaLM-E 还借鉴了谷歌之前在 ViT-22B 上的经验积累——今年 2 月发布的视觉 transformer 模型。ViT-22B 已经接受过各种视觉任务训练,包括图像分类、对象检测、语义分割和图像描述。

Google Robotics 并不是唯一尝试使用神经网络进行机器人控制的研究小组。这项特殊工作与微软最近发布的《ChatGPT for Robotics》论文有相通之处,该文章也尝试以类似方式将视觉数据同大语言模型相结合,探索对机器人进行控制。

除了机器人技术之外,谷歌研究人员还观察到其他一些有趣的效果,其明显来自 PaLM-E 的大语言模型核心。首先,它表现出了“正迁移”,又称助长式迁移,意味着它能把一项任务中学到的知识和技能迁移至另一项任务,而且与单任务机器人模型相比具有“明显更高的性能水平”。

谷歌称正在探索 PaLM-E 
型更多应用场景

此外,研究人员还观察到模型规模有越来越大的趋势:“语言模型越大,在视觉语言和机器人任务训练时就越能保持住这种语言能力。从数量上讲,5620 亿参数的 PaLM-E 模型几乎保留了全部的语言能力。”

在另一不同领域,同一套 PaLM-E 模型能够实时控制机器人。在此之前,机器人还需要人工引导才能完成很长的操作任务(interactive-language.github.io),但现在 PaLM-E 已经能够自主学习这些任务。

谷歌称,“PaLM-E 是迄今为止已公开的最大视觉语言模型。我们观察到,尽管只接受了单图像提示训练,但 PaLM-E 仍然掌握了多模态思维推理和多图像推理等新能力。虽然不是我们的工作重点,PaLM-E 在 OK-VQA 基准测试上创下新的同类最佳性能”。

研究人员宣称,PaLM-E 还展现出随机应变的能力,例如尽管只接受过单图像提示训练,仍可实现多模态思维链推理(允许模型对包含语言和视觉信息在内的一系列输入进行分析)和多图像推理(同时使用多张输入图像进行推理或预测)。从这个角度看,随着深度学习模型变得越来越复杂,PaLM-E 似乎正带给我们更多惊喜。

谷歌研究人员还计划探索 PaLM-E 模型在现实场景中的更多应用,例如家庭自动化或工业机器人。他们希望 PaLM-E 能够启发出更多关于多模态推理和具身化 AI 的研究。

如今“多模态”已经成为新的流行语。相信随着企业着力研发具备类人常规任务执行能力的人工通用智能(AGI),多模态的大名也将越来越多为人们所听闻。

参考链接:

https://arstechnica.com/information-technology/2023/03/embodied-ai-googles-palm-e-allows-robot-control-with-natural-commands/

文章版权归极客邦科技 InfoQ 所有,未经许可不得转载。


你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
美国档案---石美玉匹兹堡记事 - 2022.12.25 遭遇暴风雪击败OpenAI!谷歌公布20亿参数通用语音模型,支持100+语种检测翻译ChatGPT平替「小羊驼」Mac可跑!2行代码单GPU,UC伯克利再发70亿参数开源模型Chatgpt 4 要release 了炫耀一些疫情三年来我那些点击过万的雄文!300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍Meta版ChatGPT来了?小扎、LeCun官宣650亿参数SOTA大语言模型LLaMA厉害了我的 ChatGPT, 弱金融GPT来了:500亿参数,但用来投资还是跑不赢大盘5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度一万亿参数,512个昇腾910训练,华为PanGu-Σ大模型来了第三个iOS 16.4公测版发布/魅族20悦动黄曝光/Google发布史上最大「通才」模型叫板ChatGPT?Stability AI 开源语言大模型 StableLM,参数仅为GPT-3百分之四,却能实现超高性能终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人ChatGPT 开源平替来了,开箱即用!200 亿参数,采用 4300 万条指令集微调模型CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型正面迎战ChatGPT!谷歌开放Bard AI聊天机器人访问权限chatGPT. 一本正经胡说八道谷歌报复性砸出5620亿参数大模型!比ChatGPT更恐怖,机器人都能用,学术圈已刷屏失乐园与返乐园,说说科学与人AI“史上最贵”代价!谷歌一夜蒸发超7000亿元!ChatGPT概念股众生相:有人抓紧开发新应用,有人强行蹭热度商汤版ChatGPT「商量」来了!开放API,基于千亿参数大模型,体验实录在此没有百亿参数的大模型,不敢奢谈ChatGPT再胜OpenAI!谷歌发布20亿参数通用模型,100多种语言自动识别翻译最大的ViT来了!谷歌提出ViT-22B:视觉Transformer扩展到220亿参数斯坦福70亿参数开源模型媲美GPT-3.5,100美元即可复现王兴投资王慧文 ChatGPT 项目;谷歌发布全球最大视觉语言模型 PaLM-E;自如考虑赴港上市 | 极客早知道DriveGPT自动驾驶大模型中国玩家首发!1200亿参数,毫末智行出品PK chatgpt 的诗评GPT-3剪枝算法来了!无需微调,1750亿参数模型剪50%还提点文革是毛泽东第二次逼上井岗山0门槛克隆ChatGPT!30分钟训完,60亿参数性能堪比GPT-3.5HuggingChat叫板ChatGPT!300亿参数大模型免费用,网友:真香CV开启大模型时代!谷歌发布史上最大ViT:220亿参数,视觉感知力直逼人类chatgpt 说顾城剽窃Costco遇劲敌!加拿大廉价百货开业在即:食品价格便宜哭了!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。