Redian新闻
>
媲美Gen-2,Meta多模态创AI生图新里程碑!破文生视频历史难题,静图秒变视频逼真到炸裂

媲美Gen-2,Meta多模态创AI生图新里程碑!破文生视频历史难题,静图秒变视频逼真到炸裂

科技



  新智元报道  

编辑:编辑部
【新智元导读】文生视频,直接被革命了!Meta连发两个重磅研究,多模态模型Emu的变体 Emu Video和Emu Edit联动解锁生成式AI未来。

就在刚刚,Meta一连解锁两个重磅研究,生成式AI,再次到达全新的里程碑!

Emu Video,是一种基于扩散模型的文本到视频生成方法,可以分解步骤生成高质量的视频。

论文地址:https://emu-video.metademolab.com/assets/emu_video.pdf

经过Emu Video处理过的视频,具有高度的风格化,当图像动起来、添加运动之后,一切变得如此栩栩如生。

兔子手中忽然就变出一只小号,然后开始开心地跳舞,然后小号变成了彩虹色,兔子开始随着音乐惬意地慢摇。

下一秒,兔子就戴上了VR眼镜,在夏威夷的海岛上散步,然后开始跳起草裙舞,又变身DJ、粉色金发娃娃……

Emu Edit,可以仅仅基于文本指令就对图像进行编辑,通过识别和生成任务,编辑得格外精确。

论文地址:https://emu-edit.metademolab.com/assets/emu_edit.pdf

Emu Edit对于指令遵循得如此精准,以至于能确保输入图像中与指令无关的像素保持不变。

比如,让一杯橙汁出现在游泳池边,它立马完美地瞬移了。

我们还可以让这杯橙汁变成一个金色的高脚杯,背景还可以瞬穿到文艺复兴时期。

网友惊呼,这简直是AI生图的下一个里程碑!

Emu Video:高质量视频生成「分解法」


目前,视频生成中最主流的方式,就是使用扩散模型一次性生成所有的帧。

而与之形成鲜明对比的是,在NLP中,长序列生成被表述为一个自回归问题——根据先前预测的单词来预测下一个单词。这样,每个后续预测的调节信号就逐渐变强。

由于视频本质上是时间序列,因此可以假设加强调节信号对于高质量的视频生成也很重要。

An Emu on a ski trip, 4k, high resolution

但这其中就有一个问题:使用扩散模型的自回归解码很有挑战性,因为从此类模型生成单个帧,本身就需要多次迭代。

Meta研究者想到的办法是,将文本到视频的生成分解为两个子问题——

1. 根据输入文本提示生成图像;

2. 基于图像和文本的更强条件生成视频。

为模型提供起始图像和文本的方法,就让视频生成变得更容易了,因为模型需要做的,只是预测图像未来将如何演变。

这种「分解」的视频生成方法,可以有效地训练模型,并且可以通过单个扩散模型来实现。

基于Emu模型,Meta团队提出了一种基于扩散模型的T2V生成的简单方法——Emu Video。

这是一种用于视频生成任务的统一架构,可对各种输入做出响应:文本、图像,以及文本和图像。

由于视频文本数据集比图像文本数据集小得多,因此研究者还使用了权重保持冻结的预训练文本到图像(T2I)模型来初始化分解文本到视频模型。

其中最关键的设计决策,就是调整视频扩散的噪声时间表,以及让我们直接生成更高分辨率视频的多阶段训练。

分解文本到视频的生成,首先要生成以文本p为条件的图像I,然后使用更强的条件(生成的图像和文本)来生成视频V。为了在图像上条件化模型F,研究者对图像进行了临时的零填充,并将其与二进制掩码连接起来,指示哪些帧是零填充,哪些是噪声输入

与直接的T2V方法不同,在推理时,Meta的分解法能够显式生成图像,这就能够轻松地保留文本到图像模型的视觉多样性、风格和质量。

Emu Video可以生成高质量且时间一致的视频,同时使用文本提示作为输入 (顶部两行)或用户提供的附加图像(底部行)

这使得Emu Video的性能优于直接的T2V方法,即使在考虑相同数量的训练数据、计算和可训练参数时,也是如此。

大多数先前的工作,都是通过利用T2I模型来解决T2V生成问题。比如,有几项工作是采用免训练方法,通过在T2I模型中注入运动信息,来生成零样本的T2V。

虽然这些方法不需要或需要有限的训练,但生成的视频的质量和多样性,都是有限的。

与之前需要深度串联多个模型的工作不同(比如用于Make-A-Video的5个模型),新方法仅使用2个扩散模型,能够以每秒16帧的速度,生成512x512的4秒长视频。

实验


研究者在3400万个许可视频文本对的数据集上,训练了Emu Video

视频时长从5秒到60秒不等,涵盖了各种自然世界概念。

这些视频不是针对任何特定任务而策划的,也没有针对任何文本框架相似性或美观性进行过滤。

研究者使用了之前工作中的文本提示集来生成视频。

这些提示涵盖了各种各样的类别,可以测试模型生成自然和梦幻视频以及组成不同视觉概念的能力。

然后,研究者会使用JUICE评估方案进行可靠的人工评估,并使用5名评估者的多数票,每次都进行比较。

该表反映了Emu Video中的关键设计决策。每个表都显示了采用设计决策与不采用设计决策的模型在质量(Q) 和忠实度(F)方面的偏好

Emu Video中的设计选择如下。

第一行是直接从文本到视频生成的视频,结果的视觉质量低,且不一致。

第二行是使用分解的文本到视频方法,这种方法生成的视频质量高,一致性也得到了提高。

第三行是在512px生成时,不使用零终端SNR噪声计划,这会导致各代图像之间出现明显的不一致。

第四行是使用HQ数据微调第二行的模型,来增加生成视频中的运动。

另外,通过小的架构修改,研究者还在T帧上调节了模型,并且进行了扩展。

他们训练了Emu Video的变体,生成了以「过去」的16帧为条件的未来16帧。

对于两个不同的未来提示,模型会生成合理的扩展模型,既尊重原始视频,也尊重未来文本。

效果拔群


在人工评估中,与以前的工作相比,Emu Video的视频生成更受欢迎——有趣的是,不同的受访者偏重不同,其中96%的人更看重视频质量,85%的人更看重视频对文本提示的忠实度。

与Imagen Video和Align Your Latents相比,Emu Video在风格和一致性方面,质量都更高

由于不再需要像之前的工作那样深度串联多个模型,Emu Video产出的视频质量和分辨率都极高,在人工评估中已经接近许多成功的生成式AI视频工具。

比起谷歌的Imagen,比分是81:100;比起英伟达的PYOCO,比分是91:100;比起的Meta的Make-A-Video,比分是96:100。

比起Runway的Gen-2和Pika Labs,Emu Video的表现仍然很强劲。

在质量方面,Emu 胜过了VideoMake-A-Video或Imagen Video。原因主要是人们更喜欢它的像素清晰度和运动平滑度

最后,同一模型可以根据文本提示,对用户提供的图像进行「动画化」,再次刷新SOTA。

一些演示


two sloths are playing chess in slow motion, 4k, high resolution

A supernova explosion in space

A clear wine glass with turquoise-colored waves inside it

A robot dj is playing the turntable, in heavy raining futuristic tokyo rooftop cyberpunk night, sci-fi, fantasy, intricate, elegant, neon light, highly detailed, concept art, soft light, smooth, sharp focus, illustration

A phoenix flying over an active volcano in Iceland, photorealistic

一个场景转换多种动作、多种场景

柯基转换成浣熊、熊猫的多种形象

不同风格的熊猫

Emu Edit:高精度图像编辑


基于指令进行图像编辑的模型,已经屡见不鲜。

然而,当前像InstructPix2Pix在内等模型能够处理任何给定的指令,但仍无法准确地去解释和执行这些指令。

可见,它们的泛化能力是有限的,有时无法完成与训练时有偏差的任务。

对此,Meta研究人员提出了Emu Edit——首个在广泛、多样的任务集上经过训练的图像编辑模型,包括图像编辑和计算机视觉任务。

Emu Edit强大之处在于,它能够通过指令进行自由格式编辑。

比如,擦除绿草坪中的小狗,再添加一个放置在红色长椅上的笔记本,然后还可以将草坪背景变成沙漠。

Emu Edit还可以将抱枕的情绪从微笑,替换成困惑,甚至还可以「检测面部」。

香蕉拿着的吉他,立马变成了冲浪板,然后就来到幻想世界,戴上了蓝手套。

小老鼠戴上了小丑帽,然后变成了一只面无表情的熊猫,接着又变成一只兴奋大笑的熊猫。

总而言之,Emu Edit能够做到对图像局部和全局的编辑、删除和添加背景、颜色和几何变换、检测和分割等任务。

实现了一键可以处理各种图像任务,并且还能高精度生成。

当前的研究方法,通常倾向于过度修改,或在各种编辑任务上表现不佳。Meta认为,图像编辑的主要目标不应该只是制作一个「可信」的形象。

相反,模型应专注于仅精确更改与编辑请求相关的像素。

与当今许多生成式AI模型不同,Emu Edit精确地遵循指令,确保输入图像中与指令无关的像素保持不变。

Emu Edit是多任务模型,它结合了各种编辑和视觉任务来进行精确的图像编辑

例如,在棒球帽上添加文字「Aloha!」时,棒球帽本身应保持不变。

研究人员认为,将CV任务作为图像生成模型的指令,可为图像生成和编辑提供前所未有的控制。

为了训练模型,Meta团队开发了一个包含1000万个合成样本的数据集,每个样本都包括输入图像、文本指令、目标图像、任务索引。

如下,是所有数据样本的分布,由任务组成主要分为三大类:基于区域的编辑、自由格式的编辑、视觉任务,细分为16个任务。

由于Emu Edit是针对各种任务进行训练的,其中最重要一点是,能够根据用户指令识别需要应用的语义编辑,如全局/局部/纹理。

但是,如果指令非常特殊(图4中的「修复缓冲器」),或者编辑类型含糊不清(图4中「将天空改为灰色」既可解释为全局编辑,也可解释为纹理编辑),模型在确定预期的编辑类型时可能会遇到困难。

为了给模型提供一个强有力的条件,来引导生成过程走向正确的任务,Meta提出为每个任务学习一个独特的嵌入任务,并将其集成到模型中。

在训练过程中,任务嵌入与模型权重一起学习。

后期训练,Emu Edit能够通过少样本学习新的任务嵌入来适应新的任务,使模型的其余部分处于冻结状态。

最后,研究人员还发现,在多轮编辑场景中,重复应用模型,聚合重建和数值误差,从而产生明显的人工痕迹。

为了缓解这一问题,研究人员在每一轮编辑后,增加了一个按像素阈值处理的步骤,进而保持生成图像的质量。

实验


1. Emu Edit基准

研究人员比较了MagicBrush测试集和Emu Edit基准测试的结果。

与在Emu Edit测试集和MagicBrush测试集上评估的图像编辑基线的比较

为了收集具有较低偏差和较高多样性的数据集,研究人员采用了不同的方法。

他们首先定义了7种不同类型的潜在图像编辑操作:背景修改(背景)、全局图像修改(全局)、样式修改(样式)、对象移除(移除)、对象添加(添加)、局部修改(局部)和颜色/纹理修改(纹理)。

然后,利用来自MagicBrush基准的各种输入图像集,对于每个编辑操作,让工作者设计相关的、创造性的和具有挑战性的说明。此外,为了提高所收集样本的质量,Meta还采用了验证后阶段。

2. 基线比较

研究人员将Emu Edit模型与两个基于指令的图像编辑基线模型进行比较:InstructPix2Pix和Mag-icBrush。

结果表明,与所有基线相比,人类评估者一致地喜欢Emu Edit。

此外,除了空文本反转(Null-Text Inversion)在推理过程中使用了ground-truth字幕外,Emu Edit方法明显优于现有基线,

3. 消融研究

- 计算机视觉任务增强图像编辑任务

这部分,Meta团队演示了视觉任务对图像编辑任务中Emu Edit性能的重要性。

为此,研究人员训练了两个额外的模型的所有任务,除了「检测和分割」任务,和「图像到图像翻译」任务。

如下表4,增加的「检测和分割任务」提高了基于局部编辑任务中的模型性能。

此外,他们还观察到图像到图像的翻译任务,提高了自由形式编辑任务的性能。

- 学习任务嵌入的贡献

研究人员比较了Emu Edit的三种变体:(i) 以ground-truth任务嵌入为条件;(ii) 以任务嵌入为条件 (iii) 不以任务类型为条件。

表3显示了基准验证集的结果。可以看出,对任务类型进行调节,可以提高模型的性能。此外,任务预测器缩小了与ground-truth条件模型的差距。

在图9中,展示了在指令和输入图像保持不变的情况下,对任务进行调整的效果。可以看出,改变任务嵌入会直接影响模型执行的任务。

4. 少样本学习新任务

研究中,Meta还通过任务反转来探索,Emu Edit对未知任务泛化。

在此过程中,保持模型权重不变,仅更新任务嵌入以适应新任务。

实验证明,Emu Edit可以迅速适应新任务,如超分辨率、轮廓检测等。当标注样本有限或计算资源有限时,Emu Edit的任务逆向适应有着巨大的优势。

虽然Meta目前的工作还仅仅是基础研究,但其潜在的应用场景可以预见。

想象一下,聊天时即时生成动画贴纸、GIF,不用再去搜索表情包,又或者编辑自己的照片或图像,不需要任何技能,就能搞定。

发个生活动态,可以将你的静态图动态化,能吸引不少人前看。

不过,Emu Video和Emu Edit虽不能替代专业艺术家和动画师,但它们可以帮助人们以一种全新的方式表达自己。

参考资料:
https://ai.meta.com/blog/emu-text-to-video-generation-image-editing-research/
https://emu-video.metademolab.com/
https://emu-edit.metademolab.com/




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
北大&腾讯打造多模态15边形战士!语言作“纽带”,拳打脚踢各模态,超越Imagebind国产CPU里程碑!龙芯最强处理器、自研GPGPU来了,披露Tock“三剑客”字节最新文生视频模型,引发围观!狐狸跳舞超丝滑,效果超Gen-2多模态版Llama2上线,Meta发布AnyMAL文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还免费夏婳:两情难相知(七)斯坦福华人女博士退学创业,6个月打造爆火文生视频Pika1.0,4人团队估值超2亿美元AI新风口,图片秒变视频,离谱!上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生美国医疗里程碑!世界顶尖专家揭示一系列颠覆性的医学发现,影响全球数百万患者......对标DALL·E 3!Meta最强文生图Emu技术报告出炉Animate Anything来了!照片秒变视频,涂哪里就动哪里!斯坦福华人博士文生视频Pika 1.0爆火!让每个人都能成为自己故事的导演​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpaniPhone15今日全球发售:新功能迈向里程碑!一睹苹果店排队盛况...《带节奏的英语课堂》第五课超低训练成本文生图模型PixArt来了,效果媲美MJ,只需SD 10%训练时间CACIE回顾|瞄准人才培养与就业,爱尔兰应用科学型大学发展新里程碑:五所理工大学正式成立AI读脑成真,延迟仅0.25秒!Meta里程碑新研究:MEG实时解码大脑图像,LeCun转赞合成生命的里程碑!科学家首次改造了真核生物超过50%的基因组;数学家发现提高体外受精成功率的方法 | 环球科学要闻CNN能搞多模态了!UniRepLKNet:大核CNN一统多种模态,图像/视频/点云/时序/音频均达SOTA水平!逼真到恐怖!外国小哥做人体蛋糕,吓坏30万网友……文生视频PIKA1.0爆火,斯坦福华人学生退学创业,估值超2亿美元文生视频下一站,Meta已经开始视频生视频了我们的一年(19)旧金山的桥朱批《毛批三国》第九回 除暴凶吕布助司徒 犯长安李傕听贾诩《湖天一览楼》1部5章(7.1)入党(上)震惊了!这「光腿神器」逼真到“妈见打”!穿了就像没穿似的!里程碑!11只比特币现货ETF获批上市交易斯坦福华人博士文生视频Pika 1.0爆火!4人公司估值2亿,OpenAI联创参投Meta清华校友推全新AI「视频生视频」方法!单张A100生成「男人秒变猩猩」大片GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理食品安全里程碑!加州、纽约即将禁用4种有害添加剂逼真到可怕!Gen-2史诗级更新,手搓4K好莱坞大片,Midjourney梦幻联动,CEO:创意软件时代已死斯坦福华人女博士退学创业,6个月打造爆火文生视频Pika 1.0,4人团队估值超2亿美元
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。