Redian新闻
>
挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标

挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

GPT-4的视觉能力还没全量放开测试,开源对手就隆重登场了。

浙大竺院的一位校友,与微软研究院等机构合作推出了新版多模态模型LLaVA。

LLaVA在11个测试数据集上都成为了SOTA,在GitHub上更是斩获6k+星标。

开发者提供的数据显示,LLaVA的综合能力已经达到了GPT-4V水平的85%,在复杂推理任务上更是超过了96%。

读验证码、判断狗的品种,甚至根据图像生成网页代码……都难不倒LLaVA。

𝕏/Matt Shumer

资源方面,LLaVA的样本量仅为120万,在单台8*A100的机器上,1天就能完成训练。

不过体验过的网友普遍表示,LLaVA离GPT-4V还存在一些差距。

那么LLaVA究竟表现如何,我们也实测了一番。

和GPT-4V有差距,但也能用

为了更加直观地对比LLaVA和GPT-4V的表现,我们直接使用了微软发布的GPT-4V说明书中的案例。

首先来看最基本的人物识别。

这里GPT-4V说明书中使用的prompt是描述这张图,我们也如法炮制。

结果LLaVA不仅一个名字也没提,还把人数也数错了,但也判断出了这里面有足球运动员、演员和歌星。

于是我们继续追问LLaVA这些人的名字,结果它告诉我们信息量不足以判断。

这轮GPT-4V略胜一筹,不过或许是因为一下八个人太多了,于是我们又给LLaVA加试了一道简单些的题。

这次经过一轮追问,LLaVA成功认出了图片中的老马和小扎,所以这轮我们算它过关。

那如果是专业的图像呢?比如医学影像。

GPT-4V的答案是肺部感染或炎症,而LLaVA说的是吸烟或慢阻肺引发的凋亡细胞和瘢痕组织。

不过两个模型都没有确定自己的结论,都提示需要进一步检查,不过LLaVA给出的“黑色部分组织有异常”是正确的。

除了这些真·图像之外,文字识别也是多模态模型测试中的一项常见任务。

这张图中,LLaVA成功识别了里面的英文,但下面的日文片假名无论如何也认不出来。

除了上面这些正经的内容,LLaVA能不能解读表情包呢?

这次,LLaVA正确识别了图中的青蛙玩具和文字,而对表情包的解释,对了一半。

这个表情包讽刺的是有一群人发现自己错过了计划时间之后反而把预定事项推得更迟,LLaVA只说出了前面一半。

总结下来就是,GPT-4V的识别技能,LLaVA基本上也都会,但又都差点意思。

换言之就是,虽然没那么厉害,但也是能用的水平了。

那么,LLaVA是如何打造出来的呢?

由Vicuna和CLIP结合而成

LLaVA的训练一共分为两个阶段。

首先是将文本与图像对齐的预训练过程,这一阶段一共使用了60万对图像-文本信息。

第二阶段则是在对齐的基础上使用视觉指令进行调优,让LLaVA熟悉用户可能问到的各种问题。

模型结构方面,LLaVA的语言模型是羊驼家族的Vicuna,视觉模型则采用了OpenAI的CLIP,并以MLP作为模态连接器。

为了让LLaVA能够识别更多专业领域的内容,研究团队在开发过程中还使用了ScienceQA数据集。

开发过程完毕之后,研究团队使用GPT-4对LLaVA的输出内容进行评价。

利用COCO数据集中的内容,开发者设计了三种类型的问题,然后让LLaVA输出答案并交给GPT-4评分。

  • 问答式对话:将COCO数据集中的问题改编成问句进行提问

  • 细节描述:要求LLaVA对图像内容提供更详细具体的说明

  • 复杂推理:要求LLaVA在理解的基础上推理出图像中没有直接显含的信息(如:人物关系)

目前,LLaVA的代码、模型和训练数据都已经开源,有7B和13B两个参数量的模型,均为全量微调,LoRA版本也将很快发布。

作者简介

LLaVA相关论文的第一作者是威斯康星大学麦迪逊分校的华人博士生Haotian Liu。

他还是一名浙大竺院校友,期间师从计算机学院金小刚教授和吴飞教授。

他的现任导师Yong Jae Lee则是相关论文的通讯作者。

此外,来自微软研究院和哥伦比亚大学的学者也有参与LLaVA的相关工作。

项目主页(内含DEMO及GitHub、HuggingFace链接):
https://llava-vl.github.io/

论文地址:
[1]
https://arxiv.org/abs/2304.08485
[2]https://arxiv.org/abs/2310.03744

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源融资25亿、对标GPT-4V,适配国产芯……关于通用大模型的未来,智谱全交待了曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中GitHub热榜登顶:开源版GPT-4代码解释器,可安装任意Python库,本地终端运行刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完庄子与屈原,你会选择谁的人生?最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星DreamLLM:多功能多模态大型语言模型,你的DreamLLM~对待日本人的态度着实有看头的,还就只有鲁迅和张爱玲。GPT-4V多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,OpenAI总裁激动转发全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」多模态大模型迸发,创业机会和挑战在哪?丨GAIR 2023大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述狂揽13k star,开源版代码解释器登顶GitHub热榜,可本地运行、可访问互联网字节 | 大模型BuboGPT:引入视觉定位,实现细粒度多模态,已开源超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩带你出去晒太阳Github发布Octoverse开源报告!印度将超美国成最大开发者社区,生成式AI增长248%,Copilot重构GitHub清华系ChatGLM3现场怼脸演示!多模态直逼GPT-4V,国产Code Interpreter来了正面硬刚OpenAI!智谱AI推出第三代基座模型,功能对标GPT-4V,代码解释器随便玩AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队2008春 欧洲印象 4 米兰112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista传OpenAI秘密训练GPT-5;腾讯混元大模型或本周亮相;首个中英语音多模态LLM开源破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型思谋进博会首秀:发布全球首个工业多模态大模型,现场与松下、江森自控签署全面战略合作GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报红色日记 9.11-20
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。