Redian新闻
>
苹果Vision Pro头显AI助手来袭:会调酒、能打麻将,甚至能开飞机

苹果Vision Pro头显AI助手来袭:会调酒、能打麻将,甚至能开飞机

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

要是苹果Vision Pro头显加上AI助手,有多强?

南洋理工大学与微软雷蒙德研究所带来一个震撼概念演示。

人在飞机上,不知道怎么降落?带上头显把画面传给AI,就能一步一步你操作。

这个多模态AI助手名叫Otter(水獭),以视频为输入,能完成多模态感知、推理、和上下文学习,也经过专门的遵循指令训练。

更贴近生活一些的场景,在麻将桌上,Otter分分钟教你胡几次大的。

而当你锻炼身体时,Otter可以充当你的计数器。

调酒师小哥忘记配方时,也能分分钟化解尴尬。

总之,它可以实时识别现实场景并回答人类提问,而且简直就是个全能选手。

Otter一共支持八种语言,中文也包括在内

训练过程中,团队专门使用了适用于AR头显的第一视角视频,宣传上也明示就是为苹果头显准备的。

不过也有网友发现了华点。

结果,Otter在各测试项目上的平均成绩比传统的MiniGPT-4、OpenFlamingo等传统模型高出十余个百分点。

如何实现

Otter使用视觉识别模块分析场景信息,并结合ChatGPT生成答案。

其中核心的视觉模块是基于改进版本的LLaVA进行训练的。

Otter整体的工作流程大概是这样的:

首先要对视觉信息进行处理,并结合系统信息生成prompt。

生成好的prompt会被传递给ChatGPT,得到指令-回应数据。

这样得到的答案再经过一步筛选器筛选之后,由ChatGPT翻译成用户选择的语言并输出。

在主线流程之外,团队还引入了冷启动机制,用于发现数据库中可用的情景实例。

接下来,让我们看一下当中最关键的环节,也就是视觉信息的解释。

为了训练Otter,研究团队专门提出了MultI-Modal In-Context Instruction Tuning(多模式场景下的指令调整)数据集。

MIMIC-IT涵盖了大量的现实生活场景,而且不同于传统的LLaVa等只有一张图片和语言描述的数据集,MIMIC-IT包含多种模式。

Otter中视觉识别模块的训练大致分为一般场景第一人称视角下的场景两部分。

其中一般场景的识别又分为了四个步骤。

第一步是对场景化信息的学习,这一部中使用的是经过调整的LLaVA数据集。

对数据集中的每个指令-相应组,团队都基于文字或图片相似性为其检索了是个场景化实例。

为了更好地适应真实世界,下一步的训练主要是让模型发现图像之间的差别。

而这些差别又被分为了一般差别和微小差别两种类型。

对于一般差别,通过prompt让ChatGPT进行图像分析和物体检测生成注释。

而对于微小差别,则使用自然语言描述作为注释。

拥有了发现差别的能力之后,就要让模型尝试着“讲故事”了。

由于图像注释无法直观反映时间线等要素,研究团队让ChatGPT充当观众并回答一系列问题。

每一个场景之中都包含图像和对应的指令-响应组。

为了扩展模型的视野,研究团队还让它学习了包含大量说明的长视频片段。

说明信息包括视频内容、人的动作和行为、事件发生的顺序和因果关系等。

为了增强模型的社交推理能力和对人物复杂动态行为的理解,研究团队最后把电视剧作为了训练材料。

介绍完一般场景,我们再来看看第一人称场景又是如何分析的。

第一人称场景既包括视觉上直观看到的内容,也包括观察者的内心感受。

研究团队从ScanNetv2数据集中搜集了一些场景并进行采样,转化为多个第一人称视角的二维视觉信息。

研究团队还让ChatGPT基于隐式设定的人物性格指导人类的行为,为模型生成训练数据。

作者简介

研究团队的成员主要来自南洋理工大学S实验室,第一作者是该实验室的博士生李博。

2017年,李博获得中国大学生编程比赛银奖。

2018年至今,李博先后在滴滴、英伟达、微软等机构先后从事研究工作。

李博的导师刘子纬助理教授是本文的通讯作者。

此外,微软雷蒙德研究院首席研究员Chunyuan Li也参与了本项目。

Otter的介绍视频在B站也有发布。

在线体验:
https://otter.cliangyu.com/

论文地址:
https://arxiv.org/abs/2306.05425

GitHub页面:
https://github.com/Luodian/Otter

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
花心男推我上位四川人打麻将,为啥非得带只猫?苹果Vision Pro之父首次揭秘背后研发细节BB鸭 | 余承东称L3自动驾驶或月底出台;苹果Vision Pro头显电池曝光;酷派手机复活;超小手机Jelly Star亮相闲暇是生命的花儿~~~叔本华的鸡汤味道好极了!还顺便痛批了一下打麻将!(干货一批)苹果Vision Pro销量目标被狂砍95%|首席资讯日报3种电池型号,苹果计划本月推出Vision Pro头显开发套件走上坡路的人:会赚钱、常读书、能独处男子空中打开飞机舱门,194人强风中凌乱!乘客:“感觉飞机快要爆炸了”(多图/视频)戴着苹果Vision Pro打麻将!NTU微软华人团队联手打造Otter-E,专为AR头显设计曝中国大厂也在做苹果Vision Pro类产品 是华为还是小米?苹果Vision Pro:欲再造“iPhone时刻”苹果Vision Pro是下一个iPhone?来看看全球媒体怎么说丨两分钟发布会5047 血壮山河之武汉会战 鏖战幕府山 16苹果Vision Pro“得道”,Unity“升天”?苹果Vision Pro发售计划曝光 / Threads用户超7000万 / 蚂蚁集团被罚没71亿元| 灵感周报《伤心无话》&《一剪梅*舟过吴江》《关于苹果Vision Pro的一些看法》离谱!男子空中「打开飞机舱门」194人强风中凌乱:感觉飞机快要爆炸了!苹果Vision Pro能大卖吗? 看投资、技术人士咋回答!|前哨苹果Vision Pro:先进到让同行绝望?“富婆花13.7w买了Tiffany麻将,结果…”哈哈哈心态当场崩了!苹果Vision Pro,ONLY $3500离谱!男子空中打开飞机舱门 194人强风凌乱 “感觉飞机快要爆炸了”!苹果Vision Pro头显引发高层内斗,处境尴尬重磅!苹果Vision Pro开发者工具包正式发布!上海开设首批实验室回国-出租司机吐槽,老百姓喜欢的饭菜(多图)廉价航空要求19名乘客离开飞机,理由居然是飞机超重了!?1分钟做出苹果Vision Pro「官网」?上班8小时搞出480个网页,同事被卷疯了苹果封神头显Vision Pro竟暗藏“脑机接口”!苹果前员工疯狂揭秘读心操控苹果Vision Pro中文开发教程汇总(第1期)我的X档案 - 不可思议之事 2(灵魂出窍)(请勿上城头)着急亮相的苹果Vision Pro:一款妥协的产品,承载不了太多期待苹果Vision Pro开发细节曝光/特斯拉诉女车主侵犯名誉索赔500万/新垣结衣新片确定Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了单位里真正厉害的人:会说话、能藏锋、懂变通
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。