国际科技财经博客移民网络热点娱乐民生时事公众号

>

GPT-4V惨败！CV大神谢赛宁新作：V*重磅「视觉搜索」算法让LLM理解力逼近人类

GPT-4V惨败！CV大神谢赛宁新作：V*重磅「视觉搜索」算法让LLM理解力逼近人类

公众号新闻

2024-01-20 00:01

新智元报道

编辑：桃子

【新智元导读】多模态大模型GPT-4V也会「有眼无珠」。UC San Diego纽约大学研究人员提出全新V*视觉搜索算法逆转LLM弱视觉宿命。

Sam Altman最近在世界经济论坛上发言，称达到人类级别的AI很快就会降临。

但是，正如LeCun一直以来所言，如今的AI连猫狗都不如。现在看来的确如此。

GPT-4V、LLaVA等多模态模型图像理解力足以让人惊叹。但是，它们并非真的能够做的面面俱到。

CV大神谢赛宁称有一个问题让自己彻夜难眠——

不论分辨率或场景复杂程度如何，冻结的视觉编码器通常只能「提取一次」全局图像token。

举个栗子，一张杂乱的桌面上放了一个「星巴克」陶瓷杯，而且logo图案仅漏出一半的情况下。

对此，GPT-4V却无法正确识别出来，还产生了幻觉。

再比如，图片中小孩的鞋子是什么颜色这样直观的问题。

GPT-4V给出了「白色」的答案。

为了解决这个LLM图像理解的隐疾，「视觉搜索」这一关键方法能够为大模型提供视觉信息。

对此，来自UC San Diego和纽约大学的研究人员提出了V*——引导视觉搜索作为多模态LLM的核心机制。

论文地址：https://arxiv.org/pdf/2312.14135.pdf

具体来说，研究人员将VQA LLM与视觉搜索模型相结合。

借助大模型的世界知识，V*对视觉目标进行多轮引导搜索。它能够提取局部特征，并将其添加到工作记忆中，然后，VQA LLM利用搜索到的数据生成最终反应。

有网友表示， V*模型和论文，在我看来意义重大。

就比如，GPT-4V无法解决的「谷歌机器人验证」，V*就可以直接找到遗漏的最后一个交通灯。

「视觉搜索」神助攻

实现「人类智能」的标志之一，便是能够处理和整合多感官信息，从而完成复杂的任务。

在我们涉及视觉信息的认知推理过程中，「视觉搜索」无处不在，即在杂乱的桌子上寻找钥匙，或在人群中寻找朋友。

此外，对于需要多个推理步骤的复杂任务来说，「视觉搜索」也是一个不可或缺的步骤。

受人类能力的启发，研究人员提出了SEAL（Show、SEArch和TelL），这是一种通用元架构，用于将LLM引导的视觉搜索机制集成到MLLM中，以解决模型的视觉限制。

再如上，GPT-4V识图失败的栗子，SEAL便可轻松完成。

一堆毛绒玩具中，一个猩猩抱着什么乐器？

GPT-4V：萨克斯

SEAL：吉他

繁华的都市中，一位男子手中提了一打矿泉水的瓶子是什么logo？

GPT-4V：看不清

SEAL：依云

还有行李箱上的小挂件是哪家公司的？

GPT-4V：Rubbermaid Commercial

SEAL：英特尔

在一个更直观的中，篮球运动员的球衣数字是几号？

GPT-4V：10

SEAL：8

类似的例子还是有很多，看得出不论是简单的，还是复杂的视图中，GPT-4V全军覆没。

那么，SEAL框架是由何构成的？

SEAL框架+V*视觉搜索算

具体来说，SEAL框架由「VQA LLM」和「视觉搜索模型」两部分组成。

典型的MLLM模型可能会由于视觉编码器的信息不足，而拒绝回答或瞎猜（即幻觉）。

与之不同，SEAL中的VQA LLM可以明确地查明缺失的视觉细节，从而为以下对象创建目标对象重点。

然后，利用丰富的世界知识和语言模型的常识，视觉搜索组件定位这些已识别的元素，并将它们添加到视觉工作记忆（VWM）中。

VWM中的这些附加视觉数据，使VQA语言模型能够提供更准确、更明智的响应。

左侧部分代表VQA LLM，它利用视觉工作记忆中的所有数据来回答问题。右侧展示了V*视觉搜索算法流程

值得一提的是，SEAL的适应性使其能够与各种MLLM基础模型配合使用。

在论文的例子中，研究人员使用LLaVA作为视觉搜索模型中的VQA LLM和MLLM。

借助这种新的视觉搜索功能，MLLM能够更好地处理，在高分辨率图像中进行准确视觉基础的情况。

人类的视觉搜索过程受自上而下的特征引导和上下文场景引导，因此作者设计了一种名为V*引导视觉搜索算法，其视觉搜索模型也遵循类似的原则。

对于人类来说，这种引导主要来自于他们对物理世界的知识和经验。

因此，这一视觉搜索模型是建立在另一个MLLM的基础上的，它涵盖了关于世界的大量常识性知识，并能根据这些知识有效推理出目标在场景中的可能位置。

实验评估

现有的MLLM基准主要侧重于，提供跨各种任务类别的综合评估，并且没有充分挑战上述当前范式的具体局限性。

为了弥补这一差距并评估全新框架，作者引入了V–Bench，这是一种新的专用VQA基准，专注于高分辨率图像的视觉基础。

V-Bench是一个以视觉为中心的基准测试，要求多模态模型准确地提供特定的视觉信息，而这些信息很容易被缺乏视觉搜索功能的标准静态视觉编码器所忽视。

在图像和视频等丰富而复杂的视觉内容日益占据主导地位的世界中，MLLM能够积极关注关键视觉信息以完成复杂的推理任务至关重要。

该基准旨在强调这一基本机制的重要性，并指导MLLM的进化，以反映人类认知固有的多模态处理和推理能力。

如下是，V–Bench上不同搜索策略的评估结果。

在具体消融实验中，使用了V*算法的Vicuna-7B的模型表现更优。

最后，视觉搜索几十年来一直是cogsci/视觉科学的核心问题。有趣的是，与人眼注视相比，LLM引导V*可以达到与人类视觉搜索相当的效率！

LLM引导视觉搜索的过程如下。

作者介绍

Penghao Wu

Penghao Wu目前是加州大学圣迭戈分校计算机科学专业的硕士研究生。他于2018年在上海交通大学获得电气与计算机工程学士学位。从2023年6月开始，他便成为纽约大学研究实习生，导师是谢赛宁。

Saining Xie（谢赛宁）

谢赛宁目前是纽约大学计算机科学助理教授。据个人主页介绍，他本科毕业于上海交通大学，18年获加州大学圣迭戈分校CS博士学位。

毕业后，便在Facebook AI Research（FAIR）担任研究科学家。

他还曾与何恺明大神共同提出了用于图像分类的简单、高度模块化的网络结构ResNeXt，这篇论文发表在了CVPR 2017上。

参考资料：

https://arxiv.org/abs/2312.14135

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

Hinton和LeCun再交锋，激辩LLM能否引发智能奇点！LeCun：人类理解能力碾压GPT-4 R-CNN作者Ross Girshick离职！何恺明、谢赛宁也回归学界，Meta走出了多少CV大神。。。说一个有关Open AI的Chat GPT 创投人和我家的小故事扩散模型图像理解力刷新SOTA！字节复旦团队提出全新「元提示」策略命运组合论第一章绪论第二节 GPT 杭州/上海内推 | 上海算法创新研究院招聘LLM/多模态等方向算法工程师/实习生 ICLR 2024录用率31%！北大张铭、田渊栋、ResNeXt一作谢赛宁等大佬晒出成绩单假如有一分钟在狂笑扩散模型图像理解力刷新SOTA！字节联合复旦团队提出全新「元提示」策略扩散模型更懂复杂提示词！Pika北大斯坦福开源新框架，利用LLM提升理解力 OpenAI神秘Q*项目解密！诞生30+年「Q学习」算法引全球网友终极猜想智谱 AI 推出新一代基座大模型 GLM-4，能力逼近 GPT-4，配备多模态、长文本和智能体 R-CNN作者Ross Girshick离职，何恺明、谢赛宁回归学界，Meta CV走出了多少大神剑指百度！360上线「AI搜索」APP，是挑衅还是防御？消灭「幻觉」！谷歌全新ASPIRE方法让LLM给自己打分，效果碾压10x体量模型全球最强大模型一夜易主，GPT-4时代终结！Claude 3提前狙击GPT-5，3秒读懂万字论文理解力接近人类｜亮马桥小纪严选 GPT-4准确率最高飙升64%！斯坦福OpenAI重磅研究：全新Meta-Prompting方法让LLM当老板一个月带你手撕LLM理论与实践，并获得面试or学术指导！ChatGPT和视觉搜索，正在改变搜索市场格局 GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发刚刚开源！中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V，助力模型霸榜多项多模态榜单！老钱：“不须放屁”何恺明谢赛宁团队步步解构扩散模型，最后竟成经典去噪自编码器谢赛宁紧急辟谣：我和OpenAI的Sora模型无关！马毅LeCun谢赛宁曝出多模态LLM重大缺陷！开创性研究显著增强视觉理解能力计算机视觉迎来GPT时刻！UC伯克利三巨头祭出首个纯CV大模型！通用视觉推理显现，UC伯克利炼出单一纯CV大模型，三位资深学者参与家居自己做过的事系列:电工（1）纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画美国博士小哥打败女友的AI男友！7页论文让LLM降智，训出「负分男友」成功挽回重磅！ChatGPT放大招！GPT Store应用商店今天上线！超300万GPTs，内卷之下的赚钱机会！CVPR 2023 | MovieChat: 集成视觉模型和LLM的长视频理解新型框架一幅难忘的小说插图 CV大神何恺明正在招收博士后和实习生！比OpenAI官方提示词指南更全，这26条黄金准则让LLM性能飙升50%以上计算机视觉GPT时刻！UC伯克利三巨头祭出首个纯CV大模型，推理惊现AGI火花 chat gpt 怎么上不去了？彻底罢工了

热点事件追踪