国际科技财经博客移民网络热点娱乐民生时事公众号

>

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发

公众号新闻

2024-01-03 05:01

新智元报道

编辑：Aeneas

【新智元导读】GPT-4V的开源替代方案来了！极低成本，性能却类似，清华、浙大等中国顶尖学府，为我们提供了性能优异的GPT-4V开源平替。

如今，GPT-4 Vision在语言理解和视觉处理方面展现出了非凡的能力。

然而，如果想在不影响性能的前提下，寻求具有成本效益的替代方案，开源方案就蕴藏着无限可能。

国外的一位开发者Youssef Hosni为大家奉上了三种GPT-4V的开源替代方案，可访问性绝对可以保障。

三种开源视觉语言模型LLaVa、CogAgent和BakLLaVA，在视觉处理领域具有极大的潜力。

LLaVa

LLaVA是端到端训练的多模态大模型，来自威斯康星大学麦迪逊分校、微软研究院以及哥伦比亚大学的研究人员，最初的版本在4月发布。

它将视觉编码器和用于通用视觉和语言理解的Vicuna 结合在⼀起，实现了令人印象深刻的聊天能力。

10月份，升级后的LLaVA-1.5的表现已经接近多模态GPT-4，在Science QA数据集上取得了SOTA。

13B模型的训练，只需要8个A100就可以在1天内完成。

可以看到，LLaVA能处理各类问题，且生成的回答既全面又富有逻辑。

LLaVA表现出一些接近GPT-4水平的多模态能力，在视觉聊天方面，GPT-4相对评分85%。

而在推理问答方面，LLaVA甚至达到了新SoTA——92.53%，击败多模态思维链。

在视觉推理上，它的表现十分抢眼。

提问：「如果有事实性错误，请指出来。如果没有，请告诉我，沙漠中正在发生什么？」

LLaVA还无法完全回答正确。

升级后的LLaVA-1.5给出了完美答案：「图中根本没有沙漠，有的是棕榈树海滩、城市天际线和一大片水域。」

另外，LLaVA-1.5还可以从图中提取信息，按照要求的格式进行回答，比如以JSON格式输出。

给LLaVA-1.5一张满是水果蔬菜的图片，它也能像GPT-4V一样，把图片转化JSON。

下面这幅图是什么意思？

这是一张根据诺兰《盗梦空间》绘制的简化草图，为了提高难度，角色名字被改成了假名。

LLaVA-1.5惊艳答出：「这是一张关于电影《盗梦空间》的图。它显示了梦境世界中的不同层次，每一层次用一条线表示。图写在一张纸上，纸放在一个台面上。」

一张食物图直接发给LLaVA-1.5，它火速就给你生成一份菜谱。

而且，LLaVA-1.5不用「越狱」就可以识别出验证码。

它还能检测出，图中是哪种硬币。

尤为令人印象深刻的是，LLaVA-1.5还能告诉你图中的汪星人是什么品种。

有网友用Bing生成了一张在阳光明媚的夏季海滩上穿着冬季外套的男人的图片，并请LLaVA 1.5指出图中有哪些问题。它的慧眼十分犀利——

这是一张经过处理或PS的照片，照片中一名男子穿着夹克，站在海滩上。该男子敞开外套，阳光照在他身上。这张图片的问题在于，它并非真实的海滩场景。该男子实际上并没有站在沙滩上，阳光也没有照在他身上。这张图是p出来的，营造出了一种海滩场景的假象，但它并没有真实地再现这个场景。

OCR识别，LLaVA的性能也很强大。

CogAgent

CogAgent是在CogVLM基础上改进的开源视觉语言模型，来自清华的研究者。

CogAgent-18B有110亿个视觉参数，和70亿个语言参数。

论文地址：https://arxiv.org/pdf/2312.08914.pdf

在9个经典的跨模态基准（包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE）上，CogAgent-18B实现了最先进的通用性能。

在AITW和Mind2Web等图形用户界面操作数据集上，它大大超过了现有模型。

除了CogVLM已有的所有功能（可视化多轮对话、可视化接地）外，CogAgent.NET还提供了更多的功能：

1.支持更高分辨率的视觉输入和对话答题。支持1120x1120的超高分辨率图像输入。
2.具备可视化代理的能力，能够在任何图形用户界面截图上返回任何给定任务的计划、下⼀步行动和带有坐标的具体操作。
3.增强了与图形用户界面相关的问题解答功能，使其能够处理与网页、PC应用程序、移动应用程序等任何图形用户界面截图相关的问题。
4.通过改进预培训和微调，增强了OCR相关任务的能力。

图形用户界面代理（GUI Agent）

利用CogAgent，它可以帮我们一步步找到CVPR23的最佳论文。

可以帮我们把手机显示调成明亮模式。

这条推文有多少转评赞，为什么如此受欢迎，CogAgent都能分析出来，甚至连回复一个“Brilliant”，它都能操作。

从弗罗里达大学到好莱坞，怎样选择最快的路线？如果从早上8点出发，该如何评估需要花多长时间？CogAgent都可以回答。

可以设定特定的主题，让CogAgent往指定的邮箱里发邮件。

想听一首<You raise me up>，CogAgent可以一步步列出步骤。

CogAgent能精准地描述出《原神》中的画面，还能引导你如何走到传送点。

BakLLaVA

BakLLaVA1是使用LLaVA 1.5架构增强的Mistral 7B基础模型。

在第⼀个版本中，Mistral 7B基础模型在多个基准测试中优于Llama 2 13B。

在他们的repo中，就可以运行BakLLaVA-1了。页面还在不断更新中，以方便微调和推理。(https://github.com/SkunkworksAI/BakLLaVA)

BakLLaVA-1是完全开源的，但在某些数据上进行了训练，其中包括LLaVA的语料库，因此不允许商用。

BakLLaVA 2采用了更大的数据集和更新的架构，超越了当前的LLaVa方法。BakLLaVA摆脱了BakLLaVA-1的限制，可以商用。

参考资料：

https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

瑞鹤仙.黄山松王者GPT-4已来，32k上下文！OpenAI首届开发者大会最新爆料，全新UI可定制GPT，xAI大模型大范围可用西江月.游松花江第十七章中国和现代文明（引言）字节发布机器人领域首个开源视觉-语言操作大模型，激发开源VLMs更大潜能 GPT ConvNet与Transformer谁更强？Meta评测4个领先视觉模型，LeCun转赞视觉模型+大语言模型：首个支持10K+帧长视频理解任务的新型框架模型越大，性能越好？苹果自回归视觉模型AIM：没错机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源国产「GPTs」登场！清华系重磅发布GLM-4全家桶，性能可达90% GPT-4 直逼GPT-4开源模型大泄漏，AI社区炸锅！Mistral CEO自曝是旧模型，OpenAI再败一局？说一个有关Open AI的Chat GPT 创投人和我家的小故事大规模视觉模型新突破！70亿参数！Apple新作AIM：自回归图像模型超越同级7B模型！中国团队开源大规模高质量图文数据集ShareGPT4V，大幅提升多模态性能 ICLR 2024 | 机器人领域首个开源视觉-语言操作大模型！RoboFlamingo框架激发开源VLMs更大潜能清华大学与智谱 AI 联合推出 CogAgent：基于多模态大模型的 GUI Agent，具备视觉问答、视觉定位等能力 GPT turbo 看了没？！这真是大批失业人员在路上。chat gpt 怎么上不去了？彻底罢工了《幺妹与市场街》（3）通义千问爆甩开源全家桶！最强720亿参数超车Llama 2，新上视觉模型看图直出代码年底美股行情----先把血窟窿堵上全球首个开源多模态医疗基础模型：人工打分平均超越GPT-4V、支持2D/3D放射影像 2023两院院士增选：高校校长、C9高校领衔，江苏、湖南学者居多 Costco出了个大牌平替！行李箱斜挎包是谁狠狠心动了？买还送礼物！GPT-4V惨败！CV大神谢赛宁新作：V*重磅「视觉搜索」算法让LLM理解力逼近人类 “让霉霉中文开口跪”的AI有开源平替了！每月立省350（doge）浙大发布Agent学习框架，13B 模型达到 ChatGPT 水平！最佳开源模型刷新多项SOTA，首次超越Mixtral Instruct！「开源版GPT-4」家族迎来大爆发 NeurIPS 2023 | Backbone之战：计算机视觉任务模型大比较 AI早知道｜ChatGPT模型大更新；阿里云发布多模态大模型；百度推多模态模型UNIMO-G 刚刚开源！中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V，助力模型霸榜多项多模态榜单！零一万物发布Yi-VL多模态语言模型并开源，测评仅次于GPT-4V GPT-4V只能排第二！华科大等发布多模态大模型新基准：五大任务14个模型全面测评专注图表理解，腾讯、南洋理工等开源图表羊驼大模型ChartLlama AI早知道｜Gemini推理能力强于GPT-3.5；美图AI视觉大模型将向公众开放；Meta推全新视频生成模型FlowVid CVPR 2023 | MovieChat: 集成视觉模型和LLM的长视频理解新型框架今日arXiv最热NLP大模型论文：北京大学警惕ChatGPT等大模型遏制人类的创新能力

热点事件追踪