国际科技财经博客移民网络热点娱乐民生时事公众号

>

拳打Gen-2脚踢Pika，谷歌爆肝7个月祭出AI视频大模型！首提时空架构，时长史诗级延长

拳打Gen-2脚踢Pika，谷歌爆肝7个月祭出AI视频大模型！首提时空架构，时长史诗级延长

公众号新闻

2024-01-25 03:01

新智元报道

编辑：编辑部

【新智元导读】爆肝7个月，谷歌祭出了AI视频大模型Lumiere，直接改变了游戏规则！全新架构让视频时长和一致性全面飞升，时长直接碾压Gen-2和Pika。

AI视频赛道上，谷歌又再次放出王炸级更新！

这个名为Google Lumiere的模型，是个大规模视频扩散模型，彻底改变了AI视频的游戏规则。

跟其他模型不同，Lumiere凭借最先进的时空U-Net架构，在一次一致的通道中生成整个视频。

具体来说，现有AI生成视频的模型，大多是在生成的简短视频的基础上并对其进行时间采样而完成任务。

而谷歌推出的新模型Google Lumiere是通过是联合空间和「时间」下采样（downsampling）来实现生成，这样能显著增加生成视频的长度和生成的质量。

论文地址：https://arxiv.org/abs/2401.12945

值得一提的是，这是谷歌团队历时7个月做出的最新成果。

对于这惊人的「谷歌速度」，网友们纷纷表示惊叹——

谷歌从来不睡觉啊？

开发者回答：不睡

居然做出了走路、跳舞这样的人体力学视频，我的天，我以为这需要6到12个月才能做出来，AI真的是在以闪电般的速度发展。（我的工作流中需要这个模型）

全新STUNet架构：时间更长更连贯

为了解决AI视频长度不足，运动连贯性和一致性很低，伪影重重等一系列问题，研究人员提出了一个名为Space-Time U-Net（STUNet）的架构。

传统视频模型生成的视频往往会出现奇怪的动作和伪影

能够学习将视频信号在空间和时间上同时进行下采样和上采样，并在网络的压缩空间时间表征上执行主要计算。

相比之前的文本到视频模型采用级联设计的方式，先由基模型生成关键帧，然后使用一系列时序超分辨率模型在非重叠段内进行插值帧的生成。

STUNet可以学习直接生成全帧率的低分辨率视频。这种设计避免了时序级联结构在生成全局连贯运动时固有的限制。

STUNet架构可以直接生成5秒长的80帧视频，时间长度超过大多数媒体中的平均镜头长度，这可以产生比之前模型更连贯一致的运动。

功能丰富，效果拔群

视频编辑/修复

这项功能可以让我们编辑视频，或者在视频中插入对象。

比如这个穿绿底白花裙的女孩，只要选中衣服区域，输入文字修改要求，就能瞬间把她的裙子改成红白条纹裙、金色抹胸裙。

正在跑步的女孩，只要用文字编辑，就可以让她长满鲜花，或者变成木砖风、折纸风、乐高风。

也可以专门针对视频中某一部分的内容进行修改和编辑。

图生视频

Lumiere另外一个非常好用的功能，就是将静止图像转换为动态视频。

输入文字提示，就能让戴珍珠耳环的少女从名画中走出，张嘴笑了起来。

梵高画的《星空》，夜空中的星星和云层真的开始流动了起来。

风格化生成

Lumiere能生成各种指定艺术风格的视频。

只要给出一个指定的风格，再通过文字提示，就能按照类似风格生成非常多的视频。

可以看到，对比参考静图的风格来看，生成视频的风格复现得非常精准。

动作笔刷

通过这个名为Cinemagraphs（又名 Motion Brush）的风格，我们可以选中静图中的特定部分，让它动起来。

选中图中的这团火焰，它就开始熊熊燃烧起来。

选中图中的烟，火车就开始冒出汩汩浓烟来。

文生视频

当然，Lumiere也可以直接从文本生成详细的视频。

无论是一个在火星基地周围漫步的宇航员。

还是一只戴着太阳镜开着车的狗。

或者飞过一座废弃的庙宇，在遗迹中穿行。

还可以针对视频中缺失的部分进行补充。

STUNet架构带来的全新突破

这次，谷歌的研究者采用了跟以往不同的方法，引入了新的T2V扩散框架，该框架可以立即生成视频的完整持续时间。

为了实现这一目标，他们使用了STUNet架构，这个架构可以学习在空间和时间上对信号进行下采样，并且以压缩的时空表征形式，执行大部分计算。

Lumiere生成的示例结果，包括文本到视频生成（第一行）、图像到视频（第二行）、风格引用生成和视频修复（第三行边界框表示修复掩码区域）

采用这种方法，就能够以16fps（或5秒）生成80帧，这比大多数使用单一基础模型的媒体要好。

跟之前的工作相比，产生了更多的全局连贯运动。

令人惊讶的是，这种设计选择被以前的T2V模型忽视了，这些模型遵循惯例，在架构中仅包含空间下采样和上采样操作，并在整个网络中保持固定的时间分辨率。

使用Lumiere和ImagenVideo进行周期性运动生成视频的代表性示例。研究者应用 Lumiere图像到视频生成，以ImagenVideo生成的视频的第一帧为条件，可视化相应的X-T切片。由于其级联设计和时间超分辨率模块，Imagenvideo难以生成全局连贯的重复运动，而这些模块无法跨时间窗口，一致地解决混叠模糊问题

研究人员的框架由基本模型和空间超分辨率（SSR）模型组成。

如上图3b所示，研究人员的基础模型以粗略的空间分辨率生成完整的剪辑。

他们的基础模型的输出使用时间感知的SSR模型进行空间上采样，从而产生高分辨率视频。

研究人员的架构如上图所示。

他们在T2I架构中交织时间块，并在每个预训练的空间调整大小模块之后插入时间下采样和上采样模块（图4a）。时间块包括时间卷积（图4b）和时间注意力（图4c）。

具体来说，在除了最粗糙的级别之外的所有级别中，他们插入因式分解的时空卷积（图4b），与全3D卷积相比，它允许增加网络中的非线性，同时降低计算成本，并与一维卷积。

由于时间注意力的计算要求与帧数呈二次方关系，因此他们仅在最粗分辨率下合并时间注意力，其中包含视频的时空压缩表示。

在低维特征图上进行操作允许他们以有限的计算开销堆叠多个时间注意力块。

研究人员训练新添加的参数，并保持预训练T2I的权重固定。值得注意的是，常见的膨胀方法确保在初始化时，T2V模型相当于预训练的T2I模型，即生成视频作为独立图像样本的集合。

然而，在研究人员的例子中，由于时间下采样和上采样模块，不可能满足这个属性。

他们凭经验发现，初始化这些模块以使它们执行最近邻下采样和上采样操作会产生一个良好的起点（就损失函数而言）。

应用展示

以下是文生视频和图像生视频的示例。

从图像到视频的示例中，最左边的帧是作为条件提供给模型的。

以下是风格化生成的示例。

给定起始风格图像及其相应的一组微调文本到图像权重，就可以在模型空间层的微调权重和预训练权重之间执行线性插值。

研究者展示了(A)矢量艺术风格和(B)写实风格的结果。

这证明了，Lumiere能够为每种空间风格创造性地匹配不同的运动(帧从左到右显示)。

以下是使用Lumiere进行视频修复的示例。

对于每个输入视频(每个帧的左上角)，研究者都使用了Lumiere对视频的掩码区域进行了动画处理。

以下为动态图像的示例。

仅给定输入图像和掩码(左)，研究者的方法会生成一个视频，其中标记区域是动态的，其余部分保持静态(右)。

以下是通过SDEdit进行视频生视频的示例。

Lumiere基本模型可以生成全帧率视频，无需TSR级联，从而为下游应用程序提供更直观的界面。

研究者通过使用SDEdit来演示此属性，从而实现一致的视频风格化。

在第一行显示给定输入视频的几个帧，下面几行显示相应的编辑帧。

与Gen-2和Pika等模型的对比和评估

定性评估

研究人员在下图中展示了他们的模型和基线之间的定性比较。

研究人员观察到Gen-2和Pika表现出较高的每帧视觉质量，然而，它们的输出的特点是运动量非常有限，通常会产生接近静态的视频。

ImagenVideo产生合理的运动量，但整体视觉质量较低。AnimateDiff和ZeroScope表现出明显的运动，但也容易出现视觉伪影。

此外，它们生成的视频持续时间较短，分别为2秒和3.6秒。

相比之下，研究人员的方法生成的5秒视频具有更高的运动幅度，同时保持时间一致性和整体质量。

定量评估

研究人员在UCF101上定量评估了他们的零样本文本到视频生成方法。

上表1展示了他们的方法和之前工作的区别（FVD）和初始分数（IS）。

研究人员的系统取得了具有竞争力的FVD和IS分数。然而，正如之前的工作中所讨论的，这些指标并不能准确地反映人类的感知，并且可能会受到低级细节以及参考UCF101数据和T2V训练数据之间的分布变化。

此外，该协议仅使用生成视频中的16帧，因此无法捕获长期运动。

用户研究

研究人员采用了之前的工作中使用的两种选择强制选择（2AFC）协议。

在该协议中，向参与者展示了一对随机选择的视频：一个由研究人员的模型生成，另一个由一种基线方法生成。然后，参与者被要求选择他们认为在视觉质量和动作方面更好的视频。

此外，他们还被要求选择与目标文本提示更准确匹配的视频。研究人员利用 Amazon Mechanical Turk（AMT）平台收集了约400个用户对每个基线和问题的判断。

如上图所示，研究人员的方法比所有基线都更受用户青睐，并且与文本提示联系更加紧密。

请注意，ZeroScope和AnimateDiff分别仅生成3.6秒和2秒的视频，因此在与它们进行比较时，研究人员会修剪视频以匹配其持续时间。

研究人员进一步进行了一项用户研究，将他们的图像到视频模型与Pika、Stable Video Diffusion（SVD）和Gen-2进行比较。

请注意，SVD图像到视频模型不以文本为条件，因此研究人员将调查重点放在视频质量上。如上图所示，与基线相比，研究人员的方法更受用户青睐。

参考资料：

https://arxiv.org/abs/2401.12945

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

AI早知道｜百度推出视频生成模型UniVG；Soul APP上线自研语言大模型；清华大学首个大模型 Debug Gemini背后，谷歌真正可怕之处并不在模型本身语言理解首超人类，谷歌最新大模型Gemini，碾压GPT-4 吓人！澳洲各地超市员工频遭顾客暴力袭击！拳打脚踢、棍棒威胁，还有滑板车“爆头”…雷军、周鸿祎两会力挺大模型，隔壁印度GenAI却要被谷歌Gemini“扼杀”？是人都不是好东西《繁花》胡歌爆火，而她身材火辣，自律健身，却不为人知...拳打沙俄、脚踢缅甸，东北的战斗民族有多能打？谷歌深夜放复仇杀器Gemini，最强原生多模态史诗级碾压GPT-4！语言理解首超人类测评数据超越GPT-4，谷歌推出全新AI模型Gemini 流浪狗,黄主任,和谐共处「2023智云短视频大赛」视频组奖项名单公布！藏有一个重洋4 优等生归来，谷歌最强大模型Gemini能否打败GPT4？｜甲子光年抛弃编码器-解码器架构，用扩散模型做边缘检测效果更好，国防科大提出DiffusionEdge 哪里要动点哪里！腾讯联合清华、港科大推出全新图生视频大模型突发！纽约法拉盛亚裔男被非裔男拳打脚踢！都是手机惹的祸！hé bàng？hé bèng？命运组合论第一章绪论第四节计算机视觉迎来GPT时刻！UC伯克利三巨头祭出首个纯CV大模型！《繁花》胡歌爆火，但这个秘密再也藏不住了....面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了超越GPT-4！谷歌DeepMind重磅发布Gemini，史上最强最通用大模型！恐怖！法拉盛缅街地铁站惊现随机攻击事件！36岁男子遭拳打脚踢！还缝了三针！大模型时代，架构师如何玩转“AI+架构”？| ArchSummit ICML 2023 | 港大提出创新时空图预训练架构，助力智慧城市多维任务学习 AI早知道｜Stability AI推出最小模型；国内首个视频大模型通过备案；内蒙古首个AI大模型工业互联网平台发布宾臣墟 13岁少年在网络上出售电动单车线下交易遭“买家”带三男子打劫拳打脚踢抢走财物计算机视觉GPT时刻！UC伯克利三巨头祭出首个纯CV大模型，推理惊现AGI火花浓人，nèng死淡人 AI大乱斗格局凸显，谷歌推出全新AI模型Gemini | 科技趣评刚刚，谷歌华人工程师被捕，他用谷歌电脑偷谷歌机密存到谷歌账号...可悲！纽约警察在时报广场遭无证移民团伙拳打脚踢！ 5人被捕后！竟被无保释放！太嚣张！就在法拉盛！非裔女看华裔女不顺眼！竟满街追着华裔女拳打脚踢！不再更新博文了

热点事件追踪