Redian新闻
>
视觉版ChatGPT来了!吸收AI画画全技能,MSRA全华人团队打造,微软16年老将领衔

视觉版ChatGPT来了!吸收AI画画全技能,MSRA全华人团队打造,微软16年老将领衔

公众号新闻
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT会画画了!

问它:能生成一张猫片给我吗?

立刻连文带图全有了。

还能根据新的文字指令调整图片:把猫换成狗。

同时也看得懂图、有理解能力。

比如发一张图给它,然后问摩托是什么颜色?它能回答出是黑色。

如上,就是由MSRA资深研究人员们提出的视觉版ChatGPT(Visual ChatGPT)。

通过给ChatGPT结合多种视觉模型,并利用一个提示管理器(Prompt Manager),他们成功让ChatGPT可以处理各种视觉任务。

这项工作一发出来就火了,GitHub揽星已超过1.5k。

简单总结一下,就是把GPT和Dall-E合并的感觉~

又懂文字又会画图……有人就说:

这不是终极meme图制造机?

诀窍在于提示工程?

Visual ChatGPT,其实就是让ChatGPT可以处理多模态信息。

但是从头训练一个多模态模型,工作量非常大。

研究人员想到可以在ChatGPT的基础上,结合一些视觉模型

而想要达到这一目的,关键需要一个中间站。

由此他们提出了提示管理器(Prompt Manager)的概念。

它的作用主要有3方面:

第一、明确告诉ChatGPT,每个视觉模型的作用,并指定好输入输出格式。

第二、转换不同的视觉信息,如将PNG图像、深度图像、掩码矩阵等转换为语言格式,方便ChatGPT理解。

第三、处理视觉模型的历史生成结果,以及不同模型的调用优先级、规避冲突等,让ChatGPT能够以迭代的方式接收视觉模型的生成内容,直到输出用户满意的结果。

这样一来,Visual ChatGPT的工作流大概长这样:

假如用户输入了一张图,模型会先将内容发送给提示管理器,然后转换成语言给ChatGPT判断,当它发现这个问题不需要调用视觉模型,就会直接给出输出(第一个回答)。

第二个问题时,ChatGPT分析问题内容需要使用视觉模型,就会让视觉模型开始执行,然后一直迭代,直到ChatGPT判断不再需要调用视觉模型时,才会输出结果。

论文介绍,Visual ChatGPT中包含了22个不同的视觉模型。包括Stable Diffusion、BLIP、pix2pix等。

为了验证Visual ChatGPT的能力,他们还进行了大量零次试验(zero-shot experiments)。

结果如开头所示,Visual ChatGPT具备很强的图像理解能力。

可以一直按照人的需求不断生成、修改图片。

当然,研究人员也提到了这项工作目前还存在一些局限性

比如生成结果的质量,主要取决于视觉模型的性能。

以及使用大量的提示工程,会一定程度上影响生成结果的速度。而且还可能同时调用多个模型,也会影响实时性。

最后,在输入图片的隐私安全上,还需要做进一步升级保护。

MSRA老将出马

本项研究成果来自微软亚洲研究院的团队。

通讯作者是段楠

他是MSRA首席研究员,自然语言计算组研究经理,中国科学技术大学兼职博导,天津大学兼职教授,CCF杰出会员。

主要从事自然语言处理、代码智能、多模态智能、机器推理等研究。

2006年加入MSRA,任职已超16年。

第一作者Chenfei Wu,同样是一位资深研究人员了。

据领英资料显示,他于2012年加入微软,任职11年,目前是一位软件工程师。

论文地址:
https://arxiv.org/abs/2303.04671

参考链接:
https://twitter.com/_akhaliq/status/1633642479869198337

「中国AIGC产业峰会」启动

邀您共襄盛举

「中国AIGC产业峰会」即将在今年3月举办,峰会将邀请AIGC产业相关领域的专家学者,共同探讨生成新世界的过去、现在和未来。

峰会上还将发布《中国AIGC产业全景报告暨AIGC 50》,全面立体描绘我国当前AIGC产业的竞争力图谱。点击链接或下方图片查看大会详情:

被ChatGPT带飞的AIGC如何在中国落地?量子位邀你共同参与中国AIGC产业峰会


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中国版ChatGPT来了!能讲四川话会算鸡兔同笼,但我兴奋不起来突发利空,中移动减持!复旦放大招:中国版ChatGPT来了,名字叫"MOSS"!大利好,私募基金可投住宅!河南人口负增长中国版ChatGPT来了!4000亿巨头也被爆炒,股价直线拉升15%!李蓓最新观点出圈,权益资产大幅减仓微软发布Visual ChatGPT:视觉模型加持ChatGPT实现丝滑聊天轻量版ChatGPT训练方法开源!仅用3天围绕LLaMA打造,号称训练速度比OpenAI快15倍立即体验!直接可用的中文版ChatGPT来了在奥地利阿尔卑斯山区徒步首个中文版ChatGPT来了:大模型的中国元“Yuan”阿里50亿参数AI画画模型火了!将图像拆分再自由重组,达摩院副院长率队打造AI教父称人工智能正变得比人类更聪明,苹果谷歌起草追踪设备规范,微软将推私有版ChatGPT,这就是今天的其他大新闻。开源版ChatGPT来了?多数任务效果超越GPT3,已开源!离家的时候ChatGPT开源平替来了,开箱即用!前OpenAI团队打造,GitHub刚发布就揽获800+星换到千般恨GPT-4平替来了!华人团队开源miniGPT-4,只需23G显存,画草稿写网站,还能帮你修洗衣机微软多模态ChatGPT来了?16亿参数搞定看图答题、智商测验等任务视觉ChatGPT来了,微软发布,代码已开源商汤版ChatGPT来袭,中国激战千亿“大模型”微软再扔AI聊天画图炸弹!视觉模型加持ChatGPT,Visual ChatGPT横空出世清华系ChatGPT发布!唐杰团队打造,专对中文优化,还能把握最新新闻动态在美国当地主的烦恼和喜悦ChatGPT讲座:ChatGPT并不神秘,但ChatGPT很神奇Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星百度版ChatGPT确定为“文心一言”/ 戴尔裁员5%/ 苹果要开会应对ChatGPT…今日更多新鲜事在此谷歌急投20亿押注ChatGPT「最强竞品」,GPT-3核心成员出走打造,多方出击抗衡微软微信回应头像褪色,部分C刊不准隐瞒ChatGPT使用,微软推进裁员,Opera新版集成ChatGPT,这就是今天的其它大新闻!集成ChatGPT后必应日活量首破亿!微软推出Azure OpenAI ChatGPT 服务,GPT-4下周发布打造中国版ChatGPT,这是国内最有实力的一批NLP团队与人才(更新版)GPT-4加强版Copilot来了!动嘴就能编程,测试申请已开启,网友:程序员已死微软多模态ChatGPT来了?搞定看图答题、智商测验等任务!ChatGPT和谷歌搜索不必二选一!爆火开源插件神器,中国团队打造Meta版ChatGPT来了?小扎、LeCun官宣650亿参数SOTA大语言模型LLaMA中国版ChatGPT来了,三月份公测!比尔·盖茨:人工智能将是今年最热门的话题!网文版ChatGPT来了:大模型辅助写作,澜舟和中文在线联手出品一月的梵蒂冈,第4天
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。