Redian新闻
>
开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑

开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑

公众号新闻
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

开源多模态SOTA模型再易主!

Hugging Face开发者大使刚刚把王冠交给了CogVLM2,来自大模型创业公司智谱AI

CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro,还不是超过一点,是大幅领先。

网友闻讯而来,发现ChatGPT新绝技之“AI挑瓜”,我们开源届也不缺了。

更复杂的学术图表,它也能理解并给出详细解释。

CogVLM2整体模型参数量仅19B,却能在多项指标取得接近或超过GPT-4V的水平,此外还有几大亮点:

  • 支持8K文本长度

  • 支持高达1344*1344的图像分辨率

  • 提供支持中英文双语的开源模型版本

  • 开源可商用

英文版经网友测试也有不错的表现。

特别值得注意的是,尽管CogVLM2的总参数量为19B,但得益于精心设计的多专家模块结构,每次进行推理时实际激活的参数量仅约12B,这样一来,全量推理(BF16/PF16)需要42GB 显存。

接下来划重点了:

Int4量化版本,仅需要16GB显存。

也就是一张英伟达RTX4080,或者刚出不久的RTX4070 Ti SUPER就能搞定了。

性能不俗,算力需求也不离谱,以至于刚开源不久就在GitHub上小火了一把,各类开发者带着自己的场景来找团队咨询。

团队也贴心的表示,考虑到很多实际场景需要微调,专门给大家提供了Lora微调代码

  • 冻结视觉部分,BF16 Lora微调仅需57GB显存

  • 如果同时对视觉部分进行 BF16 Lora微调,则至少需要80GB显存

CogVLM2也提供在线Demo,感兴趣的话可以先试玩一下。

(试玩地址在文末领取)

好嘛,一般的小诡计还真骗不过它~

大模型整合视觉专家模块

其实去年10月,团队就发布了CogVLM一代,量子位当时也介绍过

系列的核心思路,是给大语言模型的每一层都添加可训练的视觉专家模块,以实现图像特征和文本特征的深度对齐,而不会牺牲NLP任务的性能。

可以说是把视觉语言模型的训练方式,从图像文本的浅层对齐,转向了深度融合。

CogVLM2在继承这一经典架构的基础上,做了不少优化和改进。

语言模型基座升级成最新的Llama3-8B-Instruct视觉编码器升级到5B、视觉专家模块也升级到7B,支持更高的图像分辨率等等。

特别是视觉专家模块,通过独特的参数设置精细地建模了视觉与语言序列的交互,确保了在增强视觉理解能力的同时,不会削弱模型在语言处理上的原有优势。

升级后能力有多强?

在不损失任何通用能力的前提下,在许多关键指标上有了显著提升,如在 OCRbench基准上性能提升32%,在TextVQA基准上性能提升21.9%,且模型具备了较强的文档图像理解能力(DocVQA)等。

也可以来个更直观的展示:

现在,复杂的模型架构图都可以让CogVLM2自己描述一遍,而一代的时候我们也测试过,当时还是有难度的。

为了更为严格地验证CogVLM的性能和泛化能力,一系列多模态基准上的定量评估更能说明问题。

CogVLM2的两个模型,尽管具有较小的模型尺寸,但在多个基准中取得 SOTA性能;而在其他性能上,也能达到与闭源模型(例如GPT-4V、Gemini Pro等)接近的水平。

中文能力到位,模型代码试玩开放

可能有人会疑惑,Llama3系列是出了名的能看懂中文,但死活不愿意用中文完整回答,有一种各说各话、跨服交流的美。

怎么到CogVLM2这里,加入视觉专家模块之后,中文输出能力也这么6了?

我们就这个问题询问了智谱团队,他们表示为了解决这个问题可费了不少功夫。

团队判断Llama 3 8B Instruct模型的训练数据中可能包含了大量英文数据,而中文数据的比例相对较低

找到问题,就能对症下药了:

首先,在预训练阶段,团队收集了大量的中文图文数据,涵盖了中文场景的各种情况。

特别是针对中文场景进行了OCR和文档等类型的数据收集。通过这些数据,我们使得模型在预训练阶段就能够充分接触和理解中文语境。

其次,在指令微调阶段也构造了一些高质量的中文数据。这些数据包含了各种中文指令和对应的回答,使得模型能够更好地理解和回答中文问题。在这个过程中确保中英数据的比例在一个合理的范围内,从而使得模型在处理中文问题时能够更加得心应手。

通过这些措施,CogVLM2在支持中文方面就有了显著的提升,无论是在理解中文问题还是在用中文回答问题方面,都成了亮点和优势

比如识别火车票信息,再整理成json格式,部分文字反光或者掉色也不受影响。

又或者识别并描述复杂户型图,连注释和水印都不放过。

又或者识别中文手写字体。

甚至古代字体。

最后,奉上CogVLM2开源相关的一系列链接,感兴趣的朋友可以自取。

团队还透露,GLM新版本会内嵌CogVLM2能力,在智谱清言App智谱AI大模型MaaS开放平台上线。

代码仓库:
github.com/THUDM/CogVLM2

模型下载:
Huggingface:huggingface.co/THUDM
魔搭社区:modelscope.cn/models/ZhipuAI
始智社区:wisemodel.cn/models/ZhipuAI

Demo体验:
http://36.103.203.44:7861

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

3

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
迟春网传Llama 3比肩GPT-4?别闹了春天 Spring 0001 (Beethoven)国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题满庭芳 · 巴塞罗那手擀面开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型上海AI Lab开源首个可替代GPT-4V的多模态大模型Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA多模态模型学会打扑克:表现超越GPT-4v,全新强化学习框架是关键全球最强开源模型一夜易主,1320亿参数推理飙升2倍!元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet杀疯了!全面超越Llama3的强悍开源模型,仅9B,1000k上下文;GPT-4级别模型1年降价1万倍如果能再陪父亲去吃家乡小吃GLM-4开源版本终于来了:超越Llama3,多模态比肩GPT4V,MaaS平台也大升级可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare国产端侧小模型超越 GPT-4V,「多模态」能力飞升全球最强开源模型一夜易主,1320亿参数推理飙升2倍卷疯了!最强开源大模型Llama 3发布,最大参数4000亿,小扎内心:大模型比元宇宙香多了国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座3B模型新SOTA!开源AI让日常调用不同大模型更简单北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有70B模型秒出1000token,代码重写超越GPT-4o,来自OpenAI投资的代码神器Cursor团队爆打多模态王者 GPT-4V、Gemini Pro!这个小小端侧模型杀疯了!今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?微软推出iPhone能跑的ChatGPT级模型,网友:OpenAI得把GPT-3.5淘汰了面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!苹果智能背后模型公布:3B模型优于Gemma-7B,服务器模型媲美GPT-3.5-Turbo面壁发布多模态小钢炮仅仅 8B 参数规模,超越 GPT-4V 和 Gemini ProAlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。