Redian新闻
>
年轻人的第一个多模大模型:1080Ti轻松运行,已开源在线可玩

年轻人的第一个多模大模型:1080Ti轻松运行,已开源在线可玩

公众号新闻

©作者 | 孔令宇

单位 | 国科大博士生

研究方向 | 多模态学习


Vary 团队去年 12 月在 “Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models” 中指出 CLIP 视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的 OCR 范式。Vary 发布后得到了广泛的关注(目前 Github 1.2k+ star),但也有不少人因为资源受限运行不了。


考虑到目前开源得很好且性能出色的“小” VLM 比较少,该团队又新发布了“年轻人的第一个多模大模型”—— Vary-toy,模型大小不到 2B,在消费级显卡可训练、8G 显存的老显卡可运行,依旧支持中英文!目前代码和模型均已开源,并有在线 demo 试玩。

与 Vary 相比,Vary-toy 除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级 OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级 OCR,还能做通用视觉目标检测。


Vary-toy 这个“小” VLM 几乎涵盖了目前 LVLM 主流研究中的所有能力,如:Document OCR、Visual Grounding、Image Caption、VQA……

“我们希望 Vary-toy 能当好一个结构简单、能力全面、性能可比的 baseline 的角色。希望通过 Vary-toy,能让更多的高校和个人研究者们加入多模态大模型的研究中。无论是初学者,做毕设,还是做算法研究、落地应用,我们相信它会是一个好玩好用的 ‘toy’。”



技术介绍

Vary-toy 的模型结构和训练流程如上图所示,总的来说,训练共分两个阶段。首先在第一阶段,使用 Vary-tiny+ 结构,预训练出一个相比原版 Vary 更好的视觉词表,新的视觉词表解决了原 Vary 只用它做文档级 OCR 的网络容量浪费问题、以及没有充分利用到 SAM 预训练优势的问题。然后在第二阶段中,将第一阶段中训好的视觉词表 merge 到最终结构进行 multi-task training/SFT。


众所周知一个好的数据配比对于产生一个能力全面的 VLM 是至关重要的。因此在预训练阶段,Vary-toy 使用了 5 种任务类型的数据构建对话,数据配比和示例 prompt 如下图所示;而在 SFT 阶段,只使用了 LLaVA-80K 数据。更多的技术细节,可以查看 Vary-toy 的技术报告。



性能展示

Vary-toy 在 DocVQA、ChartQA、RefCOCO、MMVet 四个 benchmark 的得分如下:

一些可视化的例子如下,

可以看到无论是从 benchmark 评分上还是可视化效果上,不到 2B 的 Vary-toy 甚至能和一些流行的 7B 模型达到性能可比的水平。


虽然作者略带自嘲地将模型起名为 “toy”,但是合适的大小、不错的性能,使得 Vary-toy 可能比我们想象中更有应用潜力。Vary 团队也抛砖引玉,基于 Vary-toy 做了两个非常不错的应用。


我们期待多模态大模型能早日迎来它广泛应用的春天!


参考链接:
https://zhuanlan.zhihu.com/p/679447793



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2B小钢炮碾压Mistral-7B,旗舰级端侧模型炸场开年黑马!1080Ti可训,170万tokens成本仅1元开源大模型火了!(附99个大模型微调模型/数据/工具)!感恩,那些并不完美的行色匆匆!AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G家常午餐全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像德国“退核”是历史性错误详解多模态大模型:LLaVA+LLaVA1.5+LLaVA-Med​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpaniPhone动嘴10秒P图!UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩苹果大模型最大动作:开源M芯专用ML框架,能跑70亿大模型「百模大战」2024走向何方?对话潞晨科技尤洋:像做PPT一样开发大模型性能强,成本低,运行快!最强开源大模型出现,超越ChatGPT和Llama!Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源AI早知道|马斯克Grok大模型开源;荣耀正式发布首款AI PC;苹果谷歌和OpenAI商谈iPhone大模型使用千元成本搞定专业大模型,系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报世界顶尖多模态大模型开源!又是零一万物,又是李开复骁龙888实时运行!美团&浙大等打造移动端多模态大模型MobileVLM21.59万起!小米SU7正式发布,送冰箱音响沙发,硬核配置拉满,会是年轻人的第一台跑车吗?最强"全开源"多模态基础感知大模型APE发布!在160种测试集上取得强力结果!北京内推 | 阿里淘天集团招聘大模型/多模态大模型算法实习生文末送书 | 及时雨!《多模态大模型:技术原理与实战》首发上市开源日报 | 清明节前AI复活亲人成热门生意;中国没有“百模大战”,未来也不会有“十模大战”;谁将替代Transformer?只需1080ti,即可在遥感图像中对目标进行像素级定位!代码数据集已开源!年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩合作一次,造谣三年!狗仔主动辟谣:王一博和赵丽颖私下没交集旷视实战大模型:把多模态扎进行业腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先中国电信开源星辰AI大模型:央企中首个完成LLM研发和开源的选手诞生开源日报 | 华为腾讯相爱相杀;Redis不再 “开源”;老黄集齐Transformer论文七大作者;“中国大模型第一城”争夺战王友琴:感谢为时代留下见证的人 ——读惠文先生的《三年困难时期整社纪实》骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。