Redian新闻
>
大模型都会标注图像了,简单对话即可!来自清华&NUS

大模型都会标注图像了,简单对话即可!来自清华&NUS

公众号新闻
张傲 投稿
量子位 | 公众号 QbitAI

多模态大模型集成了检测分割模块后,抠图变得更简单了!

只需用自然语言描述需求,模型就能分分钟标注出要寻找的物体,并做出文字解释。

在其背后提供支持的,是新加坡国立大学NExT++实验室与清华刘知远团队一同打造的全新多模态大模型。

随着GPT-4v的登场,多模态领域涌现出一大批新模型,如LLaVA、BLIP-2等等。

为了进一步扩展多模态大模型的区域理解能力,研究团队打造了一个可以同时进行对话和检测、分割的多模态模型NExT-Chat。

NExT-Chat的最大亮点,是在多模态模型中引入位置输入和输出的能力。

其中位置输入能力指的是根据指定的区域回答问题(下方左图);位置输出能力指的则是定位对话中提及的物体(下方右图):

即使是复杂的定位问题,也能迎刃而解:

除了物体定位,NExT-Chat还可以对图片或其中的某个部分进行描述:


分析完图像的内容之后,NExT-Chat可以利用得到的信息进行推理:

为了准确评估NExT-Chat的表现,研究团队在多个任务数据集上进行了测试。

在多个数据集上取得SOTA

作者首先展示了NExT-Chat在指代表达式分割(RES)任务上的实验结果。

虽然仅仅用了极少量的分割数据,NExT-Chat却展现出了良好的指代分割能力,甚至打败了一系列有监督模型(如MCN,VLT等)和用了5倍以上分割掩模标注的LISA方法。

RES任务上NExT-Chat结果

接着,研究团队展示了NExT-Chat在REC任务上的实验结果。

如下表所示,相比于相当一系列的有监督方法(如UNITER),NExT-Chat都可以取得更优的效果。

一个有意思的发现是NExT-Chat比使用了类似框训练数据的Shikra效果要稍差一些。

作者猜测,这是由于pix2emb方法中LM loss和detection loss更难以平衡,以及Shikra更贴近现有的纯文本大模型的预训练形式导致的。

REC任务上NExT-Chat结果

在图像幻觉任务上,如表3所示,NExT-Chat可以在Random和Popular数据集上取得最优的准确率。

POPE数据集上NExT-Chat结果

在区域描述任务上,NExT-Chat也能取得最优的CIDEr表现,且在该指标打败了4-shot情况下的Kosmos-2。

RefCOCOg数据集上NExT-Chat结果

那么,NExT-Chat背后都采用了哪些方法呢?

提出图像编码新方式

传统方法的缺陷

传统的模型主要通过pix2seq的方式进行LLM相关的位置建模。

比如Kosmos-2将图像划分成32x32的区块,用每个区块的id来代表点的坐标;Shikra将物体框的坐标转化为纯文本的形式从而使得LLM可以理解坐标。

但使用pix2seq方法的模型输出主要局限在框和点这样的简单格式,而很难泛化到其他更密集的位置表示格式,比如segmentation mask。

为了解决这个问题,本文提出了一种全新的基于embedding的位置建模方式pix2emb。

pix2emb方法

不同于pix2seq,pix2emb所有的位置信息都通过对应的encoder和decoder进行编码和解码,而不是借助LLM本身的文字预测头。

pix2emb方法简单示例

如上图所示,位置输入被对应的encoder编码为位置embedding,而输出的位置embedding则通过Box Decoder和Mask Decoder转化为框和掩模。

这样做带来了两个好处:

  • 模型的输出格式可以非常方便的扩展到更多复杂形式,比如segmentation mask。

  • 模型可以非常容易的定位任务中已有的实践方式,比如本文的detection loss采用L1 Loss和GIoU Loss (pix2seq则只能使用文本生成loss),本文的mask decoder借助了已有的SAM来做初始化。

通过将pix2seq与pix2emb结合,作者训练了全新的NExT-Chat模型。

NExT-Chat模型

NExT-Chat模型架构

NExT-Chat整体采用了LLaVA架构,即通过Image Encoder来编码图像信息并输入LLM进行理解,并在此基础上添加了对应的Box Encoder和两种位置输出的Decoder。

为了解决LLM不知道何时该使用语言的LM head还是位置解码器的问题,NExT-Chat额外引入一个全新的token类型来标识位置信息。

如果模型输出了,则该token的embedding会被送入对应的位置解码器进行解码而不是语言解码器。

此外,为了维持输入阶段和输出阶段位置信息的一致性,NExT-Chat额外引入了一个对齐约束:

位置输入、输出约束

如上图所示,box和位置embedding会被分别通过解码器、编码器或解码器编码器组合,并要求前后不发生变化。

作者发现该方法可以极大程度促进位置输入能力的收敛。

而NExT-Chat的模型训练主要包括3个阶段:

  • 第一阶段:训练模型基本的框输入输出基本能力。NExT-Chat采用Flickr-30K,RefCOCO,VisualGenome等包含框输入输出的数据集进行预训练。训练过程中,LLM参数会被全部训练。

  • 第二阶段:调整LLM的指令遵循能力。通过一些Shikra-RD,LLaVA-instruct之类的指令微调数据使得模型可以更好的响应人类的要求,输出更人性化的结果。

  • 第三阶段:赋予NExT-Chat模型分割能力。通过以上两阶段训练,模型已经有了很好的位置建模能力。作者进一步将这种能力扩展到mask输出上。实验发现,通过使用极少量的mask标注数据和训练时间(大约3小时),NExT-Chat可以快速的拥有良好的分割能力。

这样的训练流程的好处在于:检测框数据丰富且训练开销更小。

NExT-Chat通过在充沛的检测框数据训练基本的位置建模能力,之后可以快速的扩展到难度更大且标注更稀缺的分割任务上。

论文地址:
https://arxiv.org/abs/2311.04498

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
奥特曼:未来5-10年大模型都处于“陡峭成长曲线”,成本下降也是如此月薪2万!大量招操盘手,高中学历即可!揭秘"聘销式"非法经营证券期货犯罪单个A100生成3D图像只需30秒,这是Adobe让文本、图像都动起来的新方法只需1080ti,即可在遥感图像中对目标进行像素级定位!代码数据集已开源!急需ai设计师: 根据需求上传“AI”软件即可,提供AI设计培训,简单好做!西江月:秋寒落叶纷纷Linus 开喷谷歌内核贡献者:你的代码是垃圾!网友:我们熟悉的 Linus 回来了104 雨晴清华大学YMH Lab/香港都会大学等科研助理招聘 | 海内外心理学相关RA&工作今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!28、29 长篇民国小说《永泰里》第七章 明争暗斗 (1)&(2)GIMP 快速教程:缩放、裁剪和旋转图像 | Linux 中国720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑离谱!原来这些模型都是Rhino做出来的!大模型推理核心技术:Continuous Batching详解我们是大唐盛世 第三十三章 再次住院ABC找小留, Pro & Con大模型勇闯洛圣都,加封「GTA五星好市民」!南洋理工、清华等发布视觉可编程智能体Octopus:打游戏、做家务全能干首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型微软发布 Visual Studio 扩展 NuGetSolver,简化 NuGet 依赖项冲突解决过程免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 DebugAI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布人生完整了:第一次被逼要小费&讨论:继中餐馆,也需远离中国tony了吗?Linus Torvalds:Linux 内核中的 Rust、AI 和疲劳的维护者 | Linux 中国Q&A 申请医学院陌上花开1167 愿你我的爱有去处丨清华硕士,清秀可爱,简单真诚专注图表理解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama英国工签薪资门槛涨到£38.7k?别慌,留学生申请工签年薪达£27k即可!小外孙的体重是这样增加的打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训急需有声配音员:念书即可,简单好做比尔·盖茨对话Sam Altman:现有模型都将变成最愚蠢的模型招文学朗诵爱好者,锻炼心性,居家即可!时间自由※※※ 2023唱坛【谁是大模王】& 【 2023万圣节蒙面快闪】 活动合辑※※※【UR -> AC 20% Bonus, MR -> VS 30% Bonus】转点奖励活动汇总李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型秒杀700亿Llama 2!最新国产大模型亮相,无需申请即可免费商用,背后公司来自私募巨头ChatGPT发布一周年了,开源大模型都迎头赶上了吗?王宠真的不太好临
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。