Redian新闻
>
西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」

西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】DALL·E 3让我们看到了生成+理解的大语言模型的魔力。就在其发布的同一天,国内的一个新工作引起了社区的关注:DreamLLM。DreamLLM实现了协同学习的多模态理解和生成的大一统,能端到端进行生成和理解,这是否有望成为未来「DALL·E 4」的技术路线?

想象一下,如果AI已经能够帮助你完成一个图文并茂的文档,而不是仅有文字部分的内容,你会拿来干什么?


例如,问问自己假期想去的旅游城市是什么样的?


或者聊聊自己喜欢的电影?


或者,你只需要你的大语言模型用图片给你展示一些你想象中的画面?(文生图)

an astronaut riding a horse in a photorealistic style/in the style of Pop  Art/as a charcoal sketch/as a golden relief. 
一位宇航员骑着一匹马的真实照片/波普艺术风格画(Pop Art)/炭笔素描/金色浮雕。


robots meditating in a vipassana retreat.

机器人在观禅闭关中冥想。


Downtown Istanbul/Austin/Beijing/LA at sunrise. detailed ink wash.

日出时的伊斯坦布尔/奥斯汀/北京/洛杉矶。详细的水墨画。



Oil-on-canvas painting of a blue night sky with roiling energy. A fuzzy and bright yellow crescent moon shining at the top. Below the exploding yellow stars and radiating swirls of blue, a distant village sits quietly on the right. Connecting earth and sky is a flame-like cypress tree with curling and swaying branches on the left. A church spire rises as a beacon over rolling blue hills. 

油画作品,描绘了一个蓝色夜空中翻滚的能量。顶部有一轮模糊而明亮的黄色新月在闪耀。在爆炸的黄色星星和辐射着蓝色涡旋下方,一个遥远的村庄静静地坐落在右侧。连接大地和天空的是一棵像火焰般的柏树,在左侧卷曲摇摆着枝干。教堂尖塔高耸于起伏的蓝山之上,像一个灯塔。



这些结果来自于国内研究人员的最新研究DreamLLM,全新的多模态生成理解统一大模型。能生成能理解,图文并茂的内容也可以生成了!


论文地址:https://arxiv.org/abs/2309.11499

项目地址:https://dreamllm.github.io/

GitHub:https://github.com/RunpeiDong/DreamLLM


诸如DALL·E 3、Midjourney此类文生图模型,是否能对多模态大语言模型的理解起到帮助呢?在这篇论文中,研究人员提出了「协同多模态生成和理解」,即生成能够帮助理解,理解也能帮助生成。


正如费曼在1988年去世之前写在他的办公室黑板上的名言:「What I cannot create, I do not understand」。



这句话的含义是说,如果你不能创造一个东西,那么你就无法真正理解它。


费曼相信,真正的理解源于能够从头构建或重建某事物的能力。这是他的科学哲学的一个核心部分,也是他作为一位教师和科学家的教学方法的基础。


技术介绍


DreamLLM的模型作为一个多模态大语言模型,包含一个大语言模型逻辑核心、多模态输入编码器和数据生成解码器,其设计思想主要遵循两大原则:


生成一切


与生成中间图像语义表示(如CLIP嵌入)的现有工作不同,在训练过程中,DreamLLM不仅将所有模态的原始数据作为输入,而且以真正端到端的方式将其作为输出。其中的挑战在于使多模态大语言模型能够学习图像后验而不损害其理解能力。


为了解决这个问题,作者引入了可学习嵌入集合「dream queries」,这些嵌入封装了由多模态大语言模型编码的语义信息。这种方法避免了改变多模态大语言模型的输出空间。


然后,原始图像通过基于这些语义作为生成条件的Stable Diffusion扩散图像生成解码器进行解码生成。


通过预训练Stable Diffusion充当得分函数(「score function」),直接在像素空间中对图像后验进行建模,并借助得分蒸馏实现直接采样。


图文交错文档的生成式预训练(Interleaved-GPT, I-GPT)


DreamLLM经过训练,可以使用互联网上图文交错的多模态语料库进行生成式预训练,既编码又解码交错的图文多模态输入。


与现有方法中将多模态输入进行编码不同,解码交错的多模态输出具有挑战性,因为它涉及复杂的交错布局结构和对图像的长期上下文要求。


作者使用一个独特的<dream>标记来处理交错布局学习,该标记预测了图像在文本中的位置。利用DreamLLM大语言模型的因果关系特性,所有内容都是根据任意长度的历史多模态上下文生成的。


这种交错生成预训练(I-GPT)固有地形成了文档中图像和文本的所有联合、边际和条件分布,并导致了一种学习协同作用,在创造中促进使DreamLLM的理解,反之亦然。


 下面这张图可以直观的看出DreamLLM和现有图文多模态大模型的差异:


(a)类似于CLIP的模型一般使用双塔结构明确对齐图文语义表示。


(b)类似于Flamingo/多模态大语言模型将图文表示编码至统一的流形空间。然而,这些模型缺乏完全自回归性能力,因为它们只输出语言。


c)另一类工作将视觉输出与CLIP表示进行对齐,但此对齐发生在一个中间语义空间而不是原始数据空间。由于固有的模态差距,CLIP语义主要关注「共享模态知识」,往往忽视了可能增强多模态理解的「特定模态知识」。


另外,根据信息瓶颈理论,CLIP学习的图文「不变性」(invariance知识)目标会导致大量信息的丢失。


对齐CLIP也会导致像Emu这样的模型生成原始图像需要进行第二阶段扩散图像生成模型的微调,这些模型也无法生成原始的图文并茂的文档。


(d)相比较而言,DreamLLM以统一自回归方式生成原始语言和图像输入,实现了图文信号的完全自回归建模,因此天然支持图文并茂的文档生成。


实验结果


DreamLLM在多项零样本多模态图文理解和生成任务上取得先进的效果。


零样本多模态理解(文+图-> 文)



零样本文生图(文->图)



零样本in-context(上下文)图像编辑



零样本subject-driven(主体驱动)图像生成



零样本物体组合生成(文+图->图)


多模态上下文理解是多模态大语言模型的一个关键新兴能力。


虽然在上下文视觉问答方面已经取得了重大进展,但在上下文图像生成方面仍相对不足。DreamLLM的多模态上下文条件图像合成能力如上图所示,为该领域提供了有希望的见解。


然而,零样本上下文图像编辑、主题驱动的图像生成和组合式生成等任务中仍存在显著挑战,特别是没有像DreamBooth中的下游微调或Prompt2Prompt中的注意力修改技术。


尽管存在这些障碍,DreamLLM根据提供的图像上下文生成图像的能力。这种能力表明DreamLLM在保持主题、身份和语义上下文方面具有潜在的前景,从而为解决这些复杂任务铺平了一条新路。


多模态对话样例(文+图->文+图)

艺术和生活:



动物:



文字:



人文:



对比GPT-4




结论与讨论


DreamLLM首次实现了大语言模型LLM的具有协同促进作用的多模态内容创作和理解的学习,充分探索了多模态理解和生成的协同效应。


通过在多模态原始数据空间采样进行完全的自回归建模,在大量极易获取的互联网图文混排数据上训练,激发出诸如图文交互对话、图文并茂文档的自由生成、文生图、零样本subject-driven image generation等多模态理解和生成任务。


对比DALL·E 3的ChatGPT和生成的组合系统方案,DreamLLM迈向了更进一步的端到端学习,展现出未来可能超越DALL·E 3的巨大潜力。


当然,我们离人类水平的智能还有很长的距离。对于生成模型存在偏见、安全性和滥用问题也引起了关注,但是像DreamLLM这样的框架为未来更具能力和合作性的AI助手指明了方向。


该项工作对关键点是在图像和文本中共同训练生成能力可以带来更出色的理解力和创造力。


随着AI不断跨越多种形式,找到感知、推理和创作之间的协同效应将开辟前进之路。


这种多模态生成模型对我们与人工智能系统的互动方式可能具有革命性的影响。


想象一下,你可以要求个人助理不仅描述一个概念,还可以生成或编辑一张图片来说明它,或者通过描述而不是关键词在互联网上搜索媒体内容,实现视觉和语言的流畅共同理解和生成是迈向更自然、直观的人机交互的基石。


参考资料:
https://dreamllm.github.io/





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章传OpenA正测试DALL·E 3模型;华为语音助手支持AI大模型;亚马逊组建AI大模型新团队丨AIGC大事日报《有缘人》&《长相思》GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!深势科技发布多模态科学文献大模型Uni-Finder:重新定义智能化文献阅读思谋进博会首秀:发布全球首个工业多模态大模型,现场与松下、江森自控签署全面战略合作DreamLLM:多功能多模态大型语言模型,你的DreamLLM~独家 | 哈工深新跑出一家多模态大模型公司,聂礼强、张民等 AI 大牛加盟GPT-4版微软Win11下周二见;千亿参数生物医药大模型面世;DALL·E 3模型将接入Bing丨AIGC大事日报UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源大模型勇闯洛圣都,加封「GTA五星好市民」!南洋理工、清华等发布视觉可编程智能体Octopus:打游戏、做家务全能干小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大多模态大模型进展及应用 | 8月10日TF116报名DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型微软深夜放大招:GPT-4 、DALL·E 3、GPTs免费用,自研大模型专用AI芯片从感知到理解-融合语言模型的多模态大模型研究挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标多模态大模型迸发,创业机会和挑战在哪?丨GAIR 2023曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?燃情岁月1989(18)大模型掌握16000+真实世界API了,清华等机构ToolLLM的工具使用能力不输ChatGPT北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型3D视频人物肖像生成新突破!港科大、清华等发布AniPortraitGAN,面部表情、肩部运动全可控阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了多模态大模型能力测评:Bard 是你需要的吗?5126 血壮山河之武汉会战 富金山战役 14红色日记 10.1-10中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型对标DALL·E 3!Meta最强文生图Emu技术报告出炉正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完第八章第一节 分权制衡的政治制度的诞生中文版开源Llama 2同时有了语言、多模态大模型,完全可商用
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。