Redian新闻
>
年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

公众号新闻
Vary-toy团队 投稿
量子位 | 公众号 QbitAI

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!

模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡轻松运行。

想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。

现在只需一句话命令:

无论中英文,图片中的大段文字都能分分钟提取出来:

对一张图做对象检测,还是能给出具体坐标的那种:

这项研究由来自旷视、国科大、华中大的研究人员共同提出。

据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)

现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。

网友一边表示感兴趣,一边关注点在于旧·GTX1080,心情belike:

“缩小版”Vary

其实,早在去年12月Vary团队就发布了Vary的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人员指出CLIP视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。

Vary发布后得到广泛关注,目前Github1.2k+ star,但也有不少人因为资源受限运行不了。

考虑到目前开源得很好且性能出色的“小”VLM比较少,于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。

与Vary相比,Vary-toy除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。

那这究竟是如何做到的?

Vary-toy的模型结构和训练流程如下图所示,总的来说,训练共分两个阶段。

首先在第一阶段,使用Vary-tiny+结构,预训练出一个相比原版Vary更好的视觉词表,新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。

然后在第二阶段中,将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。

众所周知,一个好的数据配比对于产生一个能力全面的VLM是至关重要的。

因此在预训练阶段,Vary-toy使用了5种任务类型的数据构建对话,数据配比和示例prompt如下图所示:

而在SFT阶段,只使用了LLaVA-80K数据。更多的技术细节,可以查看Vary-toy的技术报告。

实验测试结果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下:

Vary-toy在DocVQA上可以达到 65.6%的ANLS,在ChartQA上达到59.1%的准确率,RefCOCO88.1%的准确率:

MMVet上可以达到29%准确率,无论是从基准测试评分上还是可视化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。

项目链接:
[1]https://arxiv.org/abs/2401.12503

[3]https://varytoy.github.io/

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型文末送书 | 及时雨!《多模态大模型:技术原理与实战》首发上市​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源年轻人的第一个多模大模型:1080Ti轻松运行,已开源在线可玩无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」个人感慨之三十七 反人类历史ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先个人感慨之三十六 乌纱帽无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像个人感慨之三十五 经济状况理想汽车发布史上最大更新:多模态大模型首次上车,无人泊车即将推送清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力骁龙888实时运行!美团&浙大等打造移动端多模态大模型MobileVLM6058 血壮山河之随枣会战 第三章 12世界顶尖多模态大模型开源!又是零一万物,又是李开复AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G详解多模态大模型:LLaVA+LLaVA1.5+LLaVA-Med大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B北京内推 | 阿里淘天集团招聘大模型/多模态大模型算法实习生首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」,正探索与机器人结合iPhone动嘴10秒P图!UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩旷视实战大模型:把多模态扎进行业骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法震惊!!!谷歌发布最强多模态大模型Gemini泰國水燈節
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。