Redian新闻
>
贾佳亚团队提出LISA大模型:理解人话「分割一切」,在线可玩

贾佳亚团队提出LISA大模型:理解人话「分割一切」,在线可玩

公众号新闻
金磊 整理自 凹非寺
量子位 | 公众号 QbitAI

分割一切这事,又有一项重磅研究入局。

香港中文大学终身教授贾佳亚团队,最新提出LISA大模型——理解人话,精准分割。

例如让AI看一张早餐图,要识别“哪个是橙子”是比较容易的,但若是问一句“哪个食物维他命C最高”呢?

毕竟这不是一个简单分割的任务了,而是需要先认清图中的每个食物,还要对它们的成分有所了解。

但现在,对于这种人类复杂的自然语言指令,AI已经是没有在怕的了,来看下LISA的表现:

不难看出,LISA精准无误的将橘子分割了出来。

再“投喂”LISA一张图并提问:

是什么让这位女士站的更高?请把它分割出来并解释原因。

从结果上来看,LISA不仅识别出来了“梯子”,而且也对问题做出了解释。

还有一个更有意思的例子。

许多朋友在看到这个大模型的名字,或许会联想到女子组合BLACK PINK里的Lisa。

贾佳亚团队还真拿她们的照片做了个测试——让LISA找Lisa

不得不说,会玩!

基于LISA,复杂分割任务拿下SOTA

根据发布的论文来看,LISA是一个多模态大模型,它在这次研究中主攻的任务便是推理分割(Reasoning Segmentation)

这个任务要求模型能够处理复杂的自然语言指令,并给出精细的分割结果。

如上图所示,推理分割任务具有很大的挑战性,可能需要借鉴世界知识(例如,左图需要了解“短镜头更适合拍摄近物体”),或进行复杂图文推理(如右图需要分析图像和文本语义,才能理解图中“栅栏保护婴儿”的含义),才能获得最终理想的分割结果。

尽管当前多模态大模型(例如Flamingo[1], BLIP-2[2], LLaVA[3], miniGPT-4[4], Otter[5]使得AI能够根据图像内容推理用户的复杂问题,并给出相应的文本分析和回答,但仍无法像视觉感知系统那样在图像上精确定位指令对应的目标区域。

因此,LISA通过引入一个<SEG>标记来扩展初始大型模型的词汇表,并采用Embedding-as-Mask的方式赋予现有多模态大型模型分割功能,最终展现出强大的零样本泛化能力。

同时,这项工作还创建了ReasonSeg数据集,其中包含上千张高质量图像及相应的推理指令和分割标注。

那么LISA这种精准理解人话的分割能力,具体是如何实现的呢?

首先将图像ximg和文本xtxt送到多模态-大语言模型F(在实验中即LLaVA),得到输出的文本结果,如果此时文本结果包含<SEG>标记,则表示需要通过输出分割预测来解决当前问题。反之,若不包含<SEG>标记,则无分割结果输出。

如果存在标记,则将<SEG>标记在多模态大模型F最后一层对应的embedding经过一个MLP层得到hseg,并将其与分割视觉特征f一起传递给解码器Fdec(其中分割视觉特征f由输入编码器Fenc对图像ximg进行编码得到)

最终,Fdec根据生成最终的分割结果M。

LISA在训练过程中使用了自回归交叉熵损失函数,以及对分割结果监督的BCE和DICE损失函数。

实验证明,在训练过程中仅使用不包含复杂推理的分割数据(通过将现有的语义分割数据如ADE20K[6],COCO-Stuff[7]以及现有指代分割数据refCOCO系列[8]中的每条数据转换成“图像-指令-分割Mask”三元组) ,LISA能在推理分割任务上展现出优异的零样本泛化能力。

此外,进一步使用239个推理分割数据进行微调训练还能显著提升LISA在推理分割任务上的性能。而且LISA还表现出高效的训练特性,只需在8张具有24GB显存的3090显卡上进行10,000次训练迭代,即可完成7B模型的训练。

最终,LISA不仅在传统的语言-图像分割指标(refCOCO、refCOCO+和refCOCOg)上展现出优异性能,还能处理以下分割任务情景:⑴复杂推理;⑵联系世界知识;⑶解释分割结果以及⑷多轮对话。

在有复杂情景的ReasonSeg数据集上,LISA显著领先于其他相关工作,进一步证明其出色的推理分割能力。

在线可玩

值得一提的是,LISA的推理分割能力已经出了demo,可以在线体验的那种。

操作也极其简单,只需填写“指令”,然后上传要处理的图像即可。

若是不会描述指令,Demo下方也给出了一些示例,小伙伴们也可以参照一下。

GitHub地址:
https://github.com/dvlab-research/LISA

论文地址:
https://arxiv.org/pdf/2308.00692.pdf

Demo地址:
http://103.170.5.190:7860/

参考链接:
[1] Alayrac, Jean-Baptiste, et al. “Flamingo: a visual language model for few-shot learning.” In NeurIPS, 2022.
[2] Li, Junnan, et al. “Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models.” In arXiv preprint, 2023.
[3] Liu, Haotian, et al. “Visual instruction tuning.” In arXiv preprint, 2023.
[4] Zhu, Deyao, et al. “Minigpt-4: Enhancing vision-language understanding with advanced large language models.” In arXiv preprint, 2023.
[5] Li, Bo, et al. “Otter: A multi-modal model with in-context instruction tuning.” In arXiv preprint, 2023.
[6] Zhou, Bolei, et al. “Scene parsing through ade20k dataset.” In CVPR, 2017.
[7] Caesar, Holger, Jasper Uijlings, and Vittorio Ferrari. “Coco-stuff: Thing and stuff classes in context.” In CVPR, 2018.
[8] Kazemzadeh, Sahar, et al. “Referitgame: Referring to objects in photographs of natural scenes.” In EMNLP, 2014.

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
其实教育并没有很难,只要说人话、做人事、通人性、解人情,就可以了 | 韩宜奋更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」次韵ICCV'23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一篇让评委们很惊讶港中文「1026实验室」往事:贾佳亚与他的学生们ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测国内团队提出全新RLTF框架,刷新SOTA!大模型生成代码质量更高bug更少ICCV 2023开奖了!2160篇录用论文,Meta「分割一切」被接收比Meta「分割一切AI」更早实现交互式开集分割!港科大开放词表分割大法入选ICCV 2023字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA李飞飞团队「具身智能」新成果!机器人接入大模型直接听懂人话,日常操作轻松完成!Google提出LaCLIP:大语言模型重写本文输入,让CLIP重焕光彩!外派故事 (35)萍水相逢在南洋当 Apache Doris 遇上大模型:探秘腾讯音乐如何基于大模型 + OLAP 构建智能数据服务平台ControlNet、「分割一切」等热门论文获奖,ICCV 2023论文奖项公布《思乡情》&《千樱雪》华为最新大模型来了!盘古3.0问世,千亿参数规模3万亿tokens,放话「不作诗只做事」ICML 2023 | 清华团队提出使用低维优化求解器求解高维/大规模优化问题7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023克苏鲁高清AI视频爆火,背后模型已开源,Demo在线可玩,前特斯拉AI总监也来围观「分割一切」视频版来了:点几下鼠标,动态的人、物就圈出来了中科院版「分割一切」模型来了,比Meta原版提速50倍 | GitHub 2.4K+星贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增 | GitHub热榜阿大提出:视听分割合成新数据集和声音图像分割新网络你好,我是筚(bì)篥( lì)!五十二 保旗棉中科院提出FastSAM快速分割一切模型!比Meta原版提速50倍!大模型写代码能力突飞猛进,北大团队提出结构化思维链SCoT通用大模型转向行业大模型:腾讯云、华为云们的下一个战场清华王建民、龙明盛团队提出全球自动气象站预报的统一深度大模型全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokensMeta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星无需人力标注!悉尼大学华人团队提出「GPT自监督标注」范式,完美解决标注成本、偏见、评估问题ICLR 2023|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架五十一 治沙
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。