智源Emu开源！超越DeepMind，刷新8项SOTA，首个「多模态-to-多模态」全能高手

公众号新闻

2023-07-14 06:07

新智元报道

来源：智源研究院

【新智元导读】最近，智源研究院开源了全新的统一多模态预训练模型——Emu。不仅在8项基准测试中表现优异，而且还超越了此前的一众SOTA。

首个打通从多模态输入到多模态输出的「全能高手」，统一多模态预训练模型Emu开源，来自智源研究院「悟道·视界」研究团队。

超越了此前DeepMind的多模态大模型Flamingo，Emu刷新8项性能指标；并且模型能力覆盖图像与文本的生成及视频理解，更通用，能完成任意图生文以及文生图的多模态任务。

这一突破来自于Emu创造性地建立了多模态统一学习框架与视频数据的大量采用，最终得以实现对任意形式的多模态的上下文序列进行图文任意模态的补全，即对于任意模态进行下一步自回归预测。

论文链接：https://arxiv.org/pdf/2307.05222.pdf

模型链接：https://github.com/baaivision/Emu

Demo链接：https://emu.ssi.plus/

作为一种通用界面，Emu 可用于多种视觉、语言应用

超越Flamingo、Kosmos，8项基准测试表现优异

在8个涵盖多模态图像/视频和语言任务的基准测试中，Emu均有不俗表现，对比来自DeepMind的Flamingo 与来自微软的 Kosmos 亦有所超越。

Emu在众多常用测试基准上表现出极强的零样本性能，展现了模型在遇到未知任务时强大的泛化能力。其中，Emu在图像描述COCO Caption的CIDEr得分为112.4，且模型对图片的描述中包含丰富的世界知识。

此外，Emu在图像问答VQAv2和视频问答MSRVTT数据集上也展现了强劲的视觉问答功能。

表1 Emu和Emu-I（Emu-I是经过指令调整的Emu模型）的多模态理解性能

同时，Emu具备强大的少样本上下文学习能力，即对于给定任务提供几个示例样本，模型可以进行上下文学习从而更好地完成任务。

Emu在视觉问答数据集 VQAv2、VizWiz、MSRVTTQA上的少样本上下文学习表现突出。

表2 在few-shot (k = 2,4,8) 推理设置下，Emu在图像问答和视频问答任务中的表现

全能高手：在多模态序列中进行「图文任意模态生成」

Emu模型能力覆盖图像与文本的生成及视频理解，相比其他多模态模型更具通用性，能完成任意图生文以及文生图的多模态任务。例如，精准图像认知、少样本图文推理、视频问答、文图生成、上下文图像生成、图像融合、多模态多轮对话等。

Emu是一个基于Transformer的多模态基础模型，可以接受并处理形式各异的多模态数据，输出指定的多模态数据。从图文对、图文交错文档、交错视频文本等形式各异的海量多模态序列中进行学习与训练后，Emu能对任意形式的多模态上下文序列进行多模态补全，对图像、文本和视频等多种模态的数据进行感知、推理和生成。

视频理解、多模态上下文生成、多模态对话是Emu模型的技术亮点。

Emu模型具有强大的视频理解能力，如在下图演示中，针对下面「视频中的女主人公在干什么」这一问题，Emu模型给出了具有精准事实细节（苹果VR设备）、连贯动作描述（坐在飞机上并使用VR设备）、合理行动猜测（可能在看一段视频或360度视角的飞机外景象）的丰富回答。

Emu不只能理解视频信息，还能做到对视频中时序信息的精细理解。

例如下图展示的奶昔制作视频，Emu分步且完整地描述了奶昔制作步骤。

Emu新增了图像融合能力，可以对输入的图像进行创造性地融合，并生成新的图片。

例如下图最后一行，将两幅世界名画作为输入，Emu可以生成风格、元素类似的全新画作：

上下文图像生成也是一项全新的功能，Emu可以将输入的文本-图片对作为 prompt，结合上下文信息进行图片生成。

例如，如果输入图1、图2两张图片，并输入文本指令让Emu生成以图1的动物为中心，但以图2为风格的图片。依赖于强大的多模态上下文生成能力，Emu可以完成相应的指令。

下图的第一行展示了如果在「文生图」时提供了context，Emu会结合context 的风格，生成油画风格的图片，而相同的文本在无context的情况下进行「文生图」只会生成现实风格的图片：

图像生成方面，Emu可以根据给定的文本生成多幅语义相关的图像：

Emu可根据一张或者多张图或视频进行问答和多轮对话。

如下第一张图所示，给出一张景点图并询问旅游注意事项，Emu给出了5个要点，其中再就第5个要点「safety equipment」提问时，Emu能够针对这一点进行更加详细地阐述。最后，Emu还可以根据图片作诗。

Emu还有一项突出的能力是它的世界知识更丰富。

如下图所示，给出两张动物的图，询问这两张图的区别，Emu可以准确描述动物的名称及分布地：

Emu模型可以准确识别画作，例如下图输入莫奈的《日出·印象》这幅作品， Emu不仅准确回答出了作品的名字，描述了画面信息，还给出了很多背景知识，例如这是著名印象派风格的作品。

而mPLUG-Owl 、LLaVA并不知道画作的名称，只是简单描述了画中场景。InstructBLIP给出了作品名称和描述，但在背景知识上略逊于Emu。

再看下图，给出阿加莎·克里斯蒂的肖像，问题是「说出这位女性写的8本书并推荐一本给我」，Emu正确理解了这个问题，识别出作者并列出其8个作品，并从中挑选了伟大的代表作推荐。

LLaVA人物识别准确，只部分理解了题意，给出推荐作品，但并没有给出8个代表作。mPLUG-Owl识别出了人物，也是部分理解了问题，只给出了4部作品和一句话简介。InstructBLIP则给出了一个错误答案。

首次大量采用视频数据，创新性建立统一多模态学习框架

多模态大模型 (LMM) 成为新晋研究热点，现有工作常将大语言模型与预训练视觉编码器连接来构建多模态大模型。

尽管现有的LMMs很有效，但主要以预测下一个文本token作为训练目标，而对视觉模态缺乏监督。这样的训练目标也限制了模型在推理应用时只能输出文本回复，而不具有生成图片回复的能力。

此外，数据直接影响到模型的搭建，视频数据正愈来愈成为图像信息时代的主要信息形态。带有交错图像字幕的视频数据，相比于图文交错文档，天然包含更密集的视觉信号，且与文本编码有更强的跨模态关联性。而现有工作主要利用图像-文本对及图文文档进行训练，对视频数据有所忽略。

如何把海量多模态数据包括视频数据纳入一个更加「统一」的多模态学习框架，从而提升多模态大模型的通用性，智源视觉团队解决了几个重要问题：

1. 对不同来源的多模态交错数据进行处理，以自动回归的方式统一建模。

智源视觉团队采用的多模态交错数据具体包括图像-文本对 (LAION-2B、LAION-COCO)、交错图像-文本数据 (MMC4)、视频-文本对 (Webvid-10M) 和交错视频-文本数据 (YT - temporal - 1b），将视觉表征与文本序列共同构成多模态序列，并进行统一的自回归建模。

Emu 以自动回归的方式统一了不同模态的建模