Redian新闻
>
超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能

超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】研究人员利用GPT4-Vision构建了一个大规模高质量图文数据集ShareGPT4V,并在此基础上训练了一个7B模型,在多项多模态榜单上超越了其他同级模型。


OpenAI在九月份为ChatGPT添加了图像输入功能,允许用户使用上传一张或多张图像配合进行对话,这一新兴功能的背后是一个被OpenAI称为GPT4-Vision的多模态(vision-language)大模型。

 

鉴于OpenAI对「闭源」的坚持,多模态开源社区如雨后春笋般涌出了众多优秀的多模态大模型研究成果,例如两大代表作MiniGPT4和LLaVA已经向用户们展示了多模态对话和推理的无限可能性。

 

在多模态大模型(Large Multi-modal Models)领域,高效的模态对齐(modality alignment)是至关重要的,但现有工作中模态对齐的效果却往往受制于缺少大规模的高质量的「图像-文本」数据。

 

为了解决这一瓶颈,近日,中科大和上海AI Lab的研究者们最近推出了具有开创性意义的大型图文数据集ShareGPT4V。

 

论文地址:https://arxiv.org/abs/2311.12793
Demo演示:https://huggingface.co/spaces/Lin-Chen/ShareGPT4V-7B
项目地址:https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V


ShareGPT4V数据集包含120万条「图像-高度详细的文本描述」数据,囊括了了世界知识、对象属性、空间关系、艺术评价等众多方面,在多样性和信息涵盖度等方面超越了现有的数据。

 

表1 ShareGPT4V和主流标注数据集的比较。其中「LCS」指LAION, CC和SBU数据集,「Visible」指明了图片在被标注时是否可见,「Avg.」展示了文本描述的平均英文字符数。


目前,该数据集已经登上了Hugging Face Datasets Trending排行第一。



数据

 

ShareGPT4V来源于从先进的GPT4-Vision模型获得的10万条「图像-高度详细的文本描述」数据。

 

研究者们从多种图片数据源(如COCO,LAION,CC,SAM等)搜集图片数据,接着使用各自数据源特定的prompt来控制GPT4-Vision产生高质量的初始数据。

 

如下图所示,给GPT4-Vision模型一张《超人》剧照,其不仅可以准确地识别出《超人》剧照中的超人角色以及其扮演者Henry Cavill,还可以充分分析出图像内物体间的位置关系以及物体的颜色属性等。

 

图1 利用GPT4-Vision 收集ShareGPT4V原始数据流程图

 

如果给GPT4-Vision模型一个梵高的画作《播种者》,其不仅可以准确地识别出画作的名称,创作者,还可以分析出画作所属的艺术流派,画作内容,以及画作本身表达出的情感与想法等信息。

 

为了更充分地与现有的图像描述数据集进行对比。我们在下图中将ShareGPT4V数据集中的高质量文本描述与当前多模态大模型所使用的数据集中的文本描述一起罗列出来:

 

图 2 「图片-文本描述」数据质量对比图

 

从图中可以看出,使用人工标注的COCO数据集虽然正确但通常十分的短,提供的信息极其有限。

 

LLaVA数据集使用语言模型GPT4想象出的场景描述通常过度依赖bounding box而不可避免地带来幻觉问题。比如bounding box确实会提供8个人的标注,但其中两个人在火车上而不是在等车。

 

其次,LLaVA数据集还只能局限于COCO的标注信息,通常会遗漏人工标注中没提及的内容(比如树木)。

 

在比较之下,我们收集的图像描述不仅可以给出综合性的描述,还不容易遗漏图像中的重要信息(比如站台信息和告示牌文字等)。

 

通过在该初始数据上进行深入训练后,研究者们开发出了一个强大的图像描述模型Share-Captioner。利用这一模型,他们进一步生成了120万高质量的「图片-文本描述」数据ShareGPT4V-PT以用于预训练阶段。

 

图3 图像描述模型扩大数据集规模流程图

 

Share-Captioner在图像描述能力上有着媲美GPT4-Vision的水平,下面是对于同一张图片的不同来源的文本描述:

 

图4 不同来源图像描述对比图

 

从上图可以看出Share-Captioner缩小了与GPT4-Vision模型在图像描述任务上的能力。可以作为收集大规模高质量图文数据对的「平替」。

 

实验

 

研究者们首先通过等量替换实验,在有监督微调(SFT)阶段充分展示了ShareGPT4V数据集的有效性。

 

从图中可以看出,ShareGPT4V数据集可以无缝地使得多种架构、多种参数规模的多模态模型的性能得到大幅提升!

 

图5 使用ShareGPT4V数据集等量替换SFT中图像描述数据后模型效果对比图

 

接下来,研究者们将ShareGPT4V数据集同时在预训练和有监督微调阶段使用,得到了ShareGPT4V-7B模型。

 

ShareGPT4V-7B在绝大多数多模态基准测试中都取得了非常优异的成果,在7B的模型规模全部取得了最优的性能!

 

图6 ShareGPT4V-7B在各个多模态基准测试上的表现


总体而言,ShareGPT4V数据集的推出为未来的多模态研究与应用奠定了新的基石。多模态开源社区有望着眼于高质量图像描述开发出更强大、智能的多模态模型。


参考资料:
https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
清华系ChatGLM3现场怼脸演示!多模态直逼GPT-4V,国产Code Interpreter来了零一万物发布Yi-VL多模态语言模型并开源,测评仅次于GPT-4V融资25亿、对标GPT-4V,适配国产芯……关于通用大模型的未来,智谱全交待了清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?一百五十八 待分配挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标AI,美丽新世界?养虎为患?112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista头像|𝐒𝐡𝐚𝐫𝐞·招桃花头像正面硬刚OpenAI!智谱AI推出第三代基座模型,功能对标GPT-4V,代码解释器随便玩北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!最好7B模型再易主!打败700亿LLaMA2,苹果电脑就能跑|开源免费MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务媲美GPT-4V,仅使用1.2M数据、8个A100,一天内完成训练,LLaVA-1.5刷新11个基准SOTAAI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G【天与湖】 一组小诗 6正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完最好的7B模型易主,笔记本轻松跑,免费开源可商用,来自“欧洲的OpenAI”​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpanAI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队ICML 2023 | RACE:使用进化算法大幅提升多智能体强化学习算法学习Costco买的和中国带回来的月饼,和大家一起共庆佳节!GPT-4V开源平替!清华浙大领衔,LLaVA、CogAgent等开源视觉模型大爆发人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩国产GPTs来了,基于智谱第4代大模型!模型性能均达GPT-4九成以上杭州/北京内推 | 阿里达摩院多模态团队招聘多模态方向全职研究员/实习生“数字中华”加强科技赋能,特色险种提升多元保障,中华财险深入推进绿色保险高质量发展全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像GPT-4V多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,OpenAI总裁激动转发一百五十九 分别讯飞星火:整体超越ChatGPT,医疗超越GPT4!一手实测在此
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。