Redian新闻
>
刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!

刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【视觉和Transformer】交流群

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!发论文,强烈推荐!

在CVer微信公众号后台回复:ShareGPT4V,即可下载论文、代码和数据集!学起来!

论文:https://arxiv.org/abs/2311.12793
主页:https://sharegpt4v.github.io/
Web Demo:
https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B
Code 和 Dataset:
https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V
OpenAI在九月份为ChatGPT添加了图像输入功能,允许用户使用上传一张或多张图像配合进行对话。这一新兴功能的背后是一个被OpenAI称为GPT4-Vision的多模态(vision-language)大模型。鉴于OpenAI对“闭源”的坚持,多模态开源社区如雨后春笋般涌出了众多优秀的多模态大模型研究成果。例如两大代表作[MiniGPT4]和[LLaVA],像用户们展示了多模态对话和推理的无限可能性。

在多模态大模型(Large Multi-modal Models)领域,高效的模态对齐(modality alignment)是至关重要的,但现有工作中模态对齐的效果却往往受制于缺少大规模的高质量的“图像-文本”数据。为了解决这一瓶颈,近日,中科大和上海AI Lab的研究者们最近推出了具有开创性意义的大型图文数据集--ShareGPT4V数据集。ShareGPT4V数据集包含120万条“图像-高度详细的文本描述”数据。这些数据囊括了了世界知识,对象属性,空间关系,艺术评价等众多方面,在多样性和信息涵盖度等方面超越了现有的数据。

表 1 ShareGPT4V和主流标注数据集的比较。其中“LCS”指LAION, CC和SBU数据集,“Visible”指明了图片在被标注时是否可见,“Avg.”展示了文本描述的平均英文字符数。

数据

ShareGPT4V来源于从先进的GPT4-Vision模型获得的10万条“图像-高度详细的文本描述”数据。研究者们从多种图片数据源(如COCO,LAION,CC,SAM等)搜集图片数据,接着使用各自数据源特定的prompt来控制GPT4-Vision产生高质量的初始数据。如下图所示,给GPT4-Vision模型一张《超人》剧照,其不仅可以准确地识别出《超人》剧照中的超人角色以及其扮演者Henry Cavill,还可以充分分析出图像内物体间的位置关系以及物体的颜色属性等。如果给GPT4-Vision模型一个梵高的画作《播种者》,其不仅可以准确地识别出画作的名称,创作者,还可以分析出画作所属的艺术流派,画作内容,以及画作本身表达出的情感与想法等信息。

图 1 利用GPT4-Vision 收集ShareGPT4V原始数据流程图

为了更充分地与现有的图像描述数据集进行对比。我们在下图中将ShareGPT4V数据集中的高质量文本描述与当前多模态大模型所使用的数据集中的文本描述一起罗列出来:    

图 2 “图片-文本描述“数据质量对比图

从图中可以看出,使用人工标注的COCO数据集虽然正确但通常十分的短,提供的信息极其有限。LLaVA数据集使用语言模型GPT4想象出的场景描述通常过度依赖bounding box而不可避免地带来幻觉问题。比如bounding box确实会提供8个人的标注,但其中两个人在火车上而不是在等车。其次,LLaVA数据集还只能局限于COCO的标注信息,通常会遗漏人工标注中没提及的内容(比如树木)。在比较之下,我们收集的图像描述不仅可以给出综合性的描述,还不容易遗漏图像中的重要信息(比如站台信息和告示牌文字等)。

通过在该初始数据上进行深入训练后,研究者们开发出了一个强大的图像描述模型Share-Captioner。利用这一模型,他们进一步生成了120万高质量的“图片-文本描述”数据ShareGPT4V-PT以用于预训练阶段。

图 3 图像描述模型扩大数据集规模流程图

Share-Captioner在图像描述能力上有着媲美GPT4-Vision的水平,下面是对于同一张图片的不同来源的文本描述:

图 4 不同来源图像描述对比图

从上图可以看出Share-Captioner缩小了与GPT4-Vision模型在图像描述任务上的能力。可以作为收集大规模高质量图文数据对的“平替”。        

实验

研究者们首先通过等量替换实验,在有监督微调(SFT)阶段充分展示了ShareGPT4V数据集的有效性。从图中可以看出,ShareGPT4V数据集可以无缝地使得多种架构、多种参数规模的多模态模型的性能得到大幅提升!   

图 5 使用ShareGPT4V数据集等量替换SFT中图像描述数据后模型效果对比图

接下来,研究者们将ShareGPT4V数据集同时在预训练和有监督微调阶段使用,得到了ShareGPT4V-7B模型。ShareGPT4V-7B在绝大多数多模态基准测试中都取得了非常优异的成果,在7B的模型规模全部取得了最优的性能!

图 6 ShareGPT4V-7B在各个多模态基准测试上的表现

总体而言,ShareGPT4V数据集的推出为未来的多模态研究与应用奠定了新的基石。多模态开源社区有望着眼于高质量图像描述开发出更强大、智能的多模态模型。   

在CVer微信公众号后台回复:ShareGPT4V,即可下载论文、代码和数据集!学起来!

CVPR / ICCV 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

计算机视觉和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型华为&中科大提出TinySAM:手机就能实时跑的分割一切模型挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型融资25亿、对标GPT-4V,适配国产芯……关于通用大模型的未来,智谱全交待了多模态LLM幻觉问题降低30%!业内首个“啄木鸟”免重训方法诞生|中科大UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源GPT-4V多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,OpenAI总裁激动转发无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像清华系ChatGLM3现场怼脸演示!多模态直逼GPT-4V,国产Code Interpreter来了​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan初探纽约网红博物馆超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?小蜘蛛,光彩一幕头像|𝐒𝐡𝐚𝐫𝐞·招桃花头像苏格兰布莱尔城堡(Blair Castle),白墙黑瓦世界顶尖多模态大模型开源!又是零一万物,又是李开复武大&港大提出FreeReg:预训练扩散大模型取得点云-图像配准SoTA!MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队正面硬刚OpenAI!智谱AI推出第三代基座模型,功能对标GPT-4V,代码解释器随便玩望月怀远 ---- 诗:(唐)张九龄 / 曲: 66的山梁零一万物发布Yi-VL多模态语言模型并开源,测评仅次于GPT-4VWFH reduced work-related carbon emissions by 54%, Nature图文并茂,三步速出「原神」文稿!首个70亿参数图文混合创作大模型正式开源,一键生成神作AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。