Redian新闻
>
微软开源多模态聊天机器人 Visual ChatGPT

微软开源多模态聊天机器人 Visual ChatGPT

公众号新闻

作者 | Anthony Alford
译者 | 明知山
策划 | 丁晓昀

微软研究院最近开源了 Visual ChatGPT,一个聊天机器人系统,可以根据人类的文本提示生成和处理图像。该系统将 OpenAI 的 ChatGPT 与 22 种不同的视觉基础模型(VFM)相结合,可以支持多模态交互。

arXiv 上的一篇论文对该系统进行了描述。用户可以通过输入文本或上传图片与聊天机器人互动。机器人还可以根据文本提示生成图像,或者通过处理聊天历史记录中的图像来生成图像。该聊天机器人的一个关键模块是提示词管理器(Prompt Manager),它将用户输入的原始文本组织成一个“思维链”提示词,帮助 ChatGPT 确定是否需要调用 VFM 工具来执行图像任务。据微软团队称,Visual ChatGPT 是:

一个包含各种 VFM 的开放系统,使用户能够超越语言格式与 ChatGPT 进行交互。为了构建这样一个系统,我们精心设计了一系列提示词,将视觉信息注入到 ChatGPT 中,从而逐步解决复杂的视觉问题。

ChatGPT 和其他大语言模型(LLM)已经显示出了强大的自然语言处理能力,但它们被训练成只处理一种输入模式:文本。微软并没有训练另一个新的模型来处理多模态输入,而是设计了一个 Prompt Manager 来生成输入给 ChatGPT 的文本,进而生成可以调用 VFM(如 CLIP 或 Stable Diffusion)来执行计算机视觉任务的输出。

Visual ChatGPT 架构

提示词管理器基于 LangChain 代理,而 VFM 被定义为 LangChain 代理工具。为了确定是否需要调用工具,代理会结合用户提示词和对话历史记录(其中包含了图像文件名),然后应用提示词的前缀和后缀。前缀包括以下文本:

Visual ChatGPT 不能直接读取图像,但它有一些工具可用来完成不同的视觉任务。每一张图像都有一个文件名,格式为“image/xxx.png”,Visual ChatGPT 可以调用不同的工具来间接理解图像。

前缀中的附加文本会引导 ChatGPT 问自己“是否需要使用工具”,如果需要使用工具,它应该输出工具的名称以及所需的输入,例如要生成的图像文件名或图像的文本描述。代理将迭代地调用 VFM 工具,将生成的图像发送到聊天会话中,直到不再需要使用工具。此时,最后生成的文本输出将被发送到聊天会话中。

在 Hacker News 的一个帖子中,一位用户指出 VFM 使用的内存比语言模型少得多,他想知道为什么。另一位用户回复说:

图像模型可以很差,但仍然可以生成令人满意的结果。试想一下,我们可以将图像的像素随机变化 10%,我们只会看到图像质量降低了一些,但其他方面仍然是完美的。而语言模型就不是这样了,因为它们试图解决的问题要“尖锐”得多,即使它们只是偏离了一点点,都会导致结果出现严重偏差。所以我们需要一个更大的模型来获得足够的文本“清晰度”。

Visual ChatGPT 源代码可在 GitHub 上获得。

原文链接:

https://www.infoq.com/news/2023/04/microsoft-visual-chatgpt/

你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
在线可玩:阿里开源多模态大模型mPLUG-Owl,电影问答、梗图理解、多轮聊天……巴黎市长将重修Châtelet 广场以方便行人【城事】巴黎市长将重修Châtelet 广场以方便行人GPT-3 计划开源!Sam Altman 自曝急缺 GPU,GPT-4 多模态能力明年开放Chatgpt 眼中的“马云数钱”,大家看AI绘画靠谱么?更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」谷歌打响全面反击战!官宣AI重构搜索、新模型比肩GPT-4,朝着ChatGPT微软开炮马斯克:英伟达不会永远垄断AI芯片市场;家乐福推出ChatGPT聊天机器人;米哈游2022年营收273.4亿元......ChatGPT全新功能公开演示!能做Excel、能上网,聊天机器人未来会成为全能app(古詩詞英譯) 梅花 - 王安石〔宋代〕迎战 ChatGPT,谷歌聊天机器人 Bard 正式开放测试微软开源“傻瓜式”类ChatGPT模型训练工具,提速省钱15倍腾讯正研发类ChatGPT聊天机器人,会集成到QQ、微信国民警卫队会保卫特朗普吗?微软开源DeepSpeed Chat,人人可快速训练百亿、千亿级ChatGPT大模型对标ChatGPT!Hugging Face推出开源聊天机器人HuggingChat谷歌打响全面反击战!官宣 AI 重构搜索、新模型比肩 GPT-4,朝着 ChatGPT 微软开炮智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手5030 血壮山河之武汉会战 九江战役 5厉害了我的 ChatGPT, 弱达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力早报|官方通报林场主求水事件:已安排浇灌;全球男性精子量告急;腾讯正研发类ChatGPT聊天机器人;宋涛在武汉会见马英九一行开源多模态大模型哪家强?TOP12榜单来了,GitHub揽获2.2k+星碾压ChatGPT?Meta开源多语言大模型,可识别4000多种语言、错误率仅为OpenAI产品的一半人类最终将毁于AI对机器学习感兴趣?不如先来实践一下!|《ChatGPT聊天机器人语义情绪波动检测》对标ChatGPT,Hugging Face推出开源聊天机器人HuggingChat《祖国》&《可能》Meta开源多感官AI模型;“ChatGPT之父”推出世界币App;传出门问问赴港IPO丨AIGC大事日报chatgpt 说顾城剽窃GPT-3计划开源!Sam Altman自曝急缺GPU,GPT-4多模态能力明年开放微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作ChatGPT 干倒了补习班股票, CHGG 近乎腰斩正面迎战ChatGPT!谷歌开放Bard AI聊天机器人访问权限说好的web3怎么悄无声息了?反倒AI有了突破(ChatGPT)团队仅30人,获a16z 投资的聊天机器人初创公司首周安装超过 170 万,用户平均每次访问时间超过ChatGPT7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型微软开源 Visual ChatGPT,7 天斩获 2.2 万 starsGPT-4版Windows炸场!整个系统就是一个对话机器人,微软开建AI全宇宙
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。