Redian新闻
>
AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队

AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队

公众号新闻
Michael 投稿自 凹非寺
量子位 | 公众号 QbitAI

谷歌人机验证已经拦不住AI了!

最新多模态大模型,能轻松找到图中所有交通信号灯,还准确圈出了具体位置。

表现直接超越GPT-4V。

这就是由苹果和哥伦比亚大学研究团队带来的多模态大模型“雪貂”(Ferret)

它具备更强的图文关联能力,提升了大模型在“看说答”任务中的精确度。

比如下图中非常细小的部件(region 1),它也可以分辨出来是避震。

GPT-4V没能回答正确,在细小部分上的表现不佳。

所以,Ferret是如何做到的呢?

“点一点”图像大模型都懂

Ferret解决的核心问题是让引用(referring)和定位(grounding)两方面空间理解能力更加紧密。

引用是指让模型准确理解给定区域的语义,也就是指一个位置它能知道是什么。

定位则是给出语义,让模型在图中找到对应目标。

对于人类来说,这两种能力是自然结合的,但是现有很多多模态大模型却只会单独使用引用和定位。

所以Ferret提出了一种新型的混合区域表示方法,能将离散坐标和连续特征联合起来表示图像中的区域

这样一来,模型就能分辨出边界框几乎一样的对象。

比如下图中两个物体的情况,如果只用离散边界框,模型会感到很“困惑”。和连续的自由形状混合表示相结合,能很好解决这一问题。

为了提取多样化区域的连续特征,论文提出了一种空间感知的视觉采样器,能够处理不同形状之间的稀疏性差异。

因此,Ferret可以接受各种区域输入,如点、边界框和自由形状,并理解其语义。

在输出中,它可以根据文本自动生成每个定位对象的坐标。

为了实现这一目标,Ferret模型的架构包括图像编码器、空间感知的视觉采样器和语言模型(LLM)等组成部分。

Ferret结合了离散坐标和连续特征,形成了一种混合区域表示。

这种表示方法旨在解决表示各种形状和格式的区域的挑战,包括点、边界框和自由形状。

离散坐标中每个坐标都被量化为一个目标框的离散坐标,这种量化确保了模型对不同图像大小的鲁棒性。

而连续特征则由空间感知视觉采样器提取,它利用二进制掩码和特征图在ROI内随机采样点,并通过双线性插值获得特征。

这些特征经过一个由3D点云模型启发的空间感知模块处理后,被浓缩成一个单一的向量, 并映射到大型语言模型(LLM)进行下一步处理。

为了增强Ferret的能力,论文还创建了一个名为GRIT的数据集。

这个数据集包含1.1M个样本,涵盖了个体对象、对象之间的关系、特定区域的描述以及基于区域的复杂推理等四个主要类别。

GRIT数据集包括了从公共数据集转换而来的数据、通过ChatGPT和GPT-4生成的指令调整数据,并额外提供了95K个困难的负样本以提高模型的鲁棒性。

实验结果表明,该模型不仅在经典的引用和定位任务中表现出优越性能,而且在基于区域和需要定位的多模态对话中远远超过现有其他MLLM模型。

此外,研究还提出了Ferret-Bench,可以评估图像局部区域的引用/定位、语义、知识和推理能力。

Ferret模型在LLaVA-Bench和Ferret-Bench上进行评估,在所有任务中都表现出色,特别是在需要指代和视觉grounding的三个新任务上,Ferret的表现很出色。

而且在描述图像细节上有明显提升,幻觉有明显下降。

全华人团队

Ferret大模型由苹果AI/ML和哥伦比亚大学研究团队共同带来,全华人阵容。

有昊轩和张昊天为共同一作。

有昊轩现在为哥伦毕业大学计算机科学博士,毕业后将加入苹果AI/ML团队。2018年从西安电子科技大学本科毕业。

主要研究方向为视觉语言理解、文本-图像生成和视觉语言。

张昊天现在为苹果AI/ML团队视觉智能研究员。

在加入苹果之前,张昊天在华盛顿大学获得博士学位,本科毕业于上海交通大学。

他是GLIP/GLIPv2的主要作者之一,GLIP曾获得CVPR2022的Best Paper Award的提名。

此外团队成员还包括甘哲、王子瑞、曹亮亮、杨寅飞等前谷歌和微软的多位优秀的多模态大模型研究员。

论文地址:https://arxiv.org/abs/2310.07704

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能时光里一叶小舟全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章第九章第三节 联邦司法系统的组织运作图像识别更准确!尤洋团队最新研究:全新自适应计算模型AdaTapeGPT-4V多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,OpenAI总裁激动转发刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩谷歌深夜放复仇杀器Gemini,最强原生多模态史诗级碾压GPT-4!语言理解首超人类马毅团队新作!微调多模态大模型会「灾难性遗忘」辞别再无相见日DreamLLM:多功能多模态大型语言模型,你的DreamLLM~实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了GPT-5正秘密训练!DeepMind联创爆料,这模型比GPT-4大100倍在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细吹尽黄沙不见金(七十七):嫉妒挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报新多模态大模型霸榜!支持图文混合输入,不懂知识还能现学震惊!!!谷歌发布最强多模态大模型GeminiGPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?马毅团队新作!微调多模态大模型会「灾难性遗忘」,让性能大减112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」,正探索与机器人结合清华系ChatGLM3现场怼脸演示!多模态直逼GPT-4V,国产Code Interpreter来了曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中红色日记 10.1-20破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源EMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。