Redian新闻
>
智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手

智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手

公众号新闻



  新智元报道  

来源:智源研究院
【新智元导读】最近,智源研究院开源了全新的统一多模态预训练模型——Emu。不仅在8项基准测试中表现优异,而且还超越了此前的一众SOTA。

首个打通从多模态输入到多模态输出的「全能高手」统一多模态预训练模型Emu开源,来自智源研究院「悟道·视界」研究团队。


超越了此前DeepMind的多模态大模型Flamingo,Emu刷新8项性能指标;并且模型能力覆盖图像与文本的生成及视频理解,更通用,能完成任意图生文以及文生图的多模态任务。


这一突破来自于Emu创造性地建立了多模态统一学习框架与视频数据的大量采用,最终得以实现对任意形式的多模态的上下文序列进行图文任意模态的补全,即对于任意模态进行下一步自回归预测。

论文链接:https://arxiv.org/pdf/2307.05222.pdf
模型链接:https://github.com/baaivision/Emu
Demo链接:https://emu.ssi.plus/

作为一种通用界面,Emu 可用于多种视觉、语言应用


超越Flamingo、Kosmos,8项基准测试表现优异


在8个涵盖多模态图像/视频和语言任务的基准测试中,Emu均有不俗表现,对比来自DeepMind的Flamingo 与来自微软的 Kosmos 亦有所超越。


Emu在众多常用测试基准上表现出极强的零样本性能,展现了模型在遇到未知任务时强大的泛化能力。其中,Emu在图像描述COCO Caption的CIDEr得分为112.4,且模型对图片的描述中包含丰富的世界知识。

此外,Emu在图像问答VQAv2和视频问答MSRVTT数据集上也展现了强劲的视觉问答功能。


表1 Emu和Emu-I(Emu-I是经过指令调整的Emu模型)的多模态理解性能


同时,Emu具备强大的少样本上下文学习能力,即对于给定任务提供几个示例样本,模型可以进行上下文学习从而更好地完成任务。


Emu在视觉问答数据集 VQAv2、VizWiz、MSRVTTQA上的少样本上下文学习表现突出。


表2 在few-shot (k = 2,4,8) 推理设置下,Emu在图像问答和视频问答任务中的表现


全能高手:在多模态序列中进行「图文任意模态生成」


Emu模型能力覆盖图像与文本的生成及视频理解,相比其他多模态模型更具通用性,能完成任意图生文以及文生图的多模态任务。例如,精准图像认知、少样本图文推理、视频问答、文图生成、上下文图像生成、图像融合、多模态多轮对话等。


Emu是一个基于Transformer的多模态基础模型,可以接受并处理形式各异的多模态数据,输出指定的多模态数据。从图文对、图文交错文档、交错视频文本等形式各异的海量多模态序列中进行学习与训练后,Emu能对任意形式的多模态上下文序列进行多模态补全,对图像、文本和视频等多种模态的数据进行感知、推理和生成。


视频理解、多模态上下文生成、多模态对话是Emu模型的技术亮点。


Emu模型具有强大的视频理解能力,如在下图演示中,针对下面「视频中的女主人公在干什么」这一问题,Emu模型给出了具有精准事实细节(苹果VR设备)、连贯动作描述(坐在飞机上并使用VR设备)、合理行动猜测(可能在看一段视频或360度视角的飞机外景象)的丰富回答。



Emu不只能理解视频信息,还能做到对视频中时序信息的精细理解


例如下图展示的奶昔制作视频,Emu分步且完整地描述了奶昔制作步骤。



Emu新增了图像融合能力,可以对输入的图像进行创造性地融合,并生成新的图片。


例如下图最后一行,将两幅世界名画作为输入,Emu可以生成风格、元素类似的全新画作:



上下文图像生成也是一项全新的功能,Emu可以将输入的文本-图片对作为 prompt,结合上下文信息进行图片生成。

例如,如果输入图1、图2两张图片,并输入文本指令让Emu生成以图1的动物为中心,但以图2为风格的图片。依赖于强大的多模态上下文生成能力,Emu可以完成相应的指令。
下图的第一行展示了如果在「文生图」时提供了context,Emu会结合context 的风格,生成油画风格的图片,而相同的文本在无context的情况下进行「文生图」只会生成现实风格的图片:



图像生成方面,Emu可以根据给定的文本生成多幅语义相关的图像:


 

Emu可根据一张或者多张图或视频进行问答和多轮对话


如下第一张图所示,给出一张景点图并询问旅游注意事项,Emu给出了5个要点,其中再就第5个要点「safety equipment」提问时,Emu能够针对这一点进行更加详细地阐述。最后,Emu还可以根据图片作诗。



Emu还有一项突出的能力是它的世界知识更丰富


如下图所示,给出两张动物的图,询问这两张图的区别,Emu可以准确描述动物的名称及分布地:



Emu模型可以准确识别画作,例如下图输入莫奈的《日出·印象》这幅作品, Emu不仅准确回答出了作品的名字,描述了画面信息,还给出了很多背景知识,例如这是著名印象派风格的作品。


而mPLUG-Owl 、LLaVA并不知道画作的名称,只是简单描述了画中场景。InstructBLIP给出了作品名称和描述,但在背景知识上略逊于Emu。



再看下图,给出阿加莎·克里斯蒂的肖像,问题是「说出这位女性写的8本书并推荐一本给我」,Emu正确理解了这个问题,识别出作者并列出其8个作品,并从中挑选了伟大的代表作推荐。


LLaVA人物识别准确,只部分理解了题意,给出推荐作品,但并没有给出8个代表作。mPLUG-Owl识别出了人物,也是部分理解了问题,只给出了4部作品和一句话简介。InstructBLIP则给出了一个错误答案。



首次大量采用视频数据,创新性建立统一多模态学习框架


多模态大模型 (LMM) 成为新晋研究热点,现有工作常将大语言模型与预训练视觉编码器连接来构建多模态大模型。


尽管现有的LMMs很有效,但主要以预测下一个文本token作为训练目标,而对视觉模态缺乏监督。这样的训练目标也限制了模型在推理应用时只能输出文本回复,而不具有生成图片回复的能力。


此外,数据直接影响到模型的搭建,视频数据正愈来愈成为图像信息时代的主要信息形态。带有交错图像字幕的视频数据,相比于图文交错文档,天然包含更密集的视觉信号,且与文本编码有更强的跨模态关联性。而现有工作主要利用图像-文本对及图文文档进行训练,对视频数据有所忽略。


如何把海量多模态数据包括视频数据纳入一个更加「统一」的多模态学习框架,从而提升多模态大模型的通用性,智源视觉团队解决了几个重要问题:


1. 对不同来源的多模态交错数据进行处理,以自动回归的方式统一建模。


智源视觉团队采用的多模态交错数据具体包括图像-文本对 (LAION-2B、LAION-COCO)、交错图像-文本数据 (MMC4)、视频-文本对 (Webvid-10M) 和交错视频-文本数据 (YT - temporal - 1b),将视觉表征与文本序列共同构成多模态序列,并进行统一的自回归建模。


Emu 以自动回归的方式统一了不同模态的建模


2. 特别地,Emu 首次采用了海量视频作为图文交错序列数据。


视频训练数据源自研究团队从 YouTube 上收集的1800万个视频(非原始视频,故事板图像)及其相应的字幕,二者结合创造了一个按时间戳顺序排序的视频和文本的自然交错序列。


 交错的视频-文本数据

 

3. 预测多模态序列的下一个元素。


模型训练方面,Emu将自回归地预测多模态序列中的下一个元素(既包含文本也包含图像)作为统一的学习目标进行预训练。


在这种不同形式的数据、统一形式的目标下完成训练后。Emu便成为了一个「通才」模型,可以轻松应对各种多模态任务,包括图生文以及文生图。


参考资料:
https://arxiv.org/pdf/2307.05222.pdf




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
DeepMind推出AI图像识别工具;华为Mate 60 Pro接入盘古大模型;传谷歌Gemini算力达GPT-4五倍ICML 2023|CMU大牛全面总结「多模态机器学习」六大挑战:36页长文+120页PPT,全干货!The Shanghai Museum Keeping Memories Of Jewish Refugees Alive报仇雪恨用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA首个通用语音翻译系统!Meta重磅开源SeamlessM4T:支持100种语言多模态翻译,附47万小时训练数据谈谈美国警察的训练和素质CVPR 2023|无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA可与ViT一较高下,DeepMind从稀疏转向Soft混合专家模型「简报」全国冠军!男子高尔夫赢得CMU田径历史上第一个NCAA团队冠军​;即将出现在你附近的Alexa设备上:ScottyBotGPT-3计划开源!Sam Altman自曝急缺GPU,GPT-4多模态能力明年开放传OpenAI秘密训练GPT-5;腾讯混元大模型或本周亮相;首个中英语音多模态LLM开源前装搭载率突破10%!智能座舱「多模态交互」进入整合周期机器人可“自我学习”!谷歌DeepMind发布首个机器人算法模型,“潘多拉魔盒”打开了?GPT-4最强平替更新!UC伯克利发布Vicuna v1.5,支持4K和16K上下文,刷新SOTA,LeCun转赞中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作「多模态LLM」最新介绍!数据、论文集直接打包带走0参数量 + 0训练,3D点云分析方法Point-NN刷新多项SOTA国内团队提出全新RLTF框架,刷新SOTA!大模型生成代码质量更高bug更少从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统阿里&华科大提出ONE-PEACE:更好的通用表征模型,刷新多个SOTA!OpenAI 又赢麻了!谷歌 DeepMind 创始人刚称 Gemini 能碾压 GPT-4,OpenAI 的挖人大计就出炉了280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了剑桥华人团队开源PandaGPT:首个横扫「六模态」的大型基础模型GPT-3 计划开源!Sam Altman 自曝急缺 GPU,GPT-4 多模态能力明年开放清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」能「说」会「画」, VisCPM:SOTA 开源中文多模态大模型不必太爱我更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」科研实习 | 北京大学卢宗青老师课题组和智源研究院招收多模态方向科研实习生GPT-3.5逆袭GPT-4!谷歌DeepMind华人天团,让LLM像人类一样制作工具,完胜CoT我所知道的朝鲜多模态大语言模型综述来啦!一文带你理清多模态关键技术这个世界上有哪一个当妈的不会哄自己孩子的
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。