GPT-4联手开源建模软件Blender，打破文本到视频生成的物理界限

2023-12-01 06:12

引言

如上图，Text2Video 模型生成的结果可能是这样的，看起来还不错，基本上都满足了 prompt 的要求，但仔细看下，好像还是有点不对劲，上图中的旗子和下图中的水流不符合物理规律啊！

继 Text2Image 火了之后，研究者们将目光投向了更加复杂的 Text2Video 领域，基于扩散模型的方法也逐渐成为了主流。一种典型思路是基于大规模的 Text-Video 数据集进行训练学习，但这种思路比较费钱，适合有钱的大厂来玩；另外一种思路是所谓的 Trainging Free，基于现有的开源模型来尝试生成一些简单的视频，代表工作有：Text2Video-Zero [1] 和 Free-bloom [2]。

但是，这类 Training Free 的方法所生成的视频存在一个严重的问题是无法保证其物理连贯性。既然让现有扩散模型在不训练的条件下来学会物理约束难以实现，那么可否找一个懂物理知识的“老师”来指导扩散模型？

GPT+Blender+SDXL

本篇论文正是采用此种思路提出了一种有趣的解决方案，而这里的“老师”是懂物理的 3D 建模软件 Blender。

论文题目：

🏀GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning

论文链接：

https://arxiv.org/pdf/2311.12631.pdf

项目主页：

https://gpt4motion.github.io/

整个工作流如下图所示：

首先，给 GPT-4 准备一个专门设计的 prompt 模板，用于将用户的 prompt 转换成一个可以驱 Blender 建模的 python 脚本 prompt。具体的 prompt 模板可见下图：

其次，将 python 脚本导入 Blender 软件生成相应的场景仿真，效果如下图所示。因为 Blender 的仿真天然满足各种力学约束，可以保证下游扩散模型在生成视频时满足物理条件。

然后，将 Blender 仿真得到的场景结果作为 condition 驱动下游扩散模型来生成视频。这里，作者先把仿真结果处理成 80 帧的边缘图和深度图，然后分别利用开源的 Canny ControlNet [3] 和 Depth ControlNet [4] 模型将两种图进行特征融合，丢给下游的扩散模型 SDXL [5] 来生成视频。

最后，为了保证生成的视频满足时间一致性，作者将 SDXL 中 U-Net 的自注意力层改为了交叉帧注意力层（cross-frame attention），使得模型在生成当前帧的时候不仅仅注意到本帧，还要注意到第一帧，这里用了一个超参数来控制两者之间的 trade-off。

结果

Prompt：A basketball spins out of the air and falls.

Prompt: Four basketballs spin randomly in the air and fall.

Prompt: A basketball is thrown towards the camera.

总结

本研究的亮点在于巧妙地串联多种工具，提出了一种 Training Free 的 Text2Video 新解决思路。从结果来看，所生成的视频更加符合物理运动规律，看起来更加自然真实。学习各种物理约束需要海量的、高质量的数据，对于一般玩家而言并不现实，而本文提出的这种思路相对更具有一定的实操性。

不过，因为是多工具串联方案，整个工作流程中的每一步都受制于上游的效果。比如，虽然 GPT-4 可以生成 python 脚本，但面对稍微复杂的 prompt 需求，在生成时也很难保证效果，这样就会导致下游的视频生成出现问题。因此，如何提升整个解决方案的健壮性是个值得思考的问题。

参考文献

[1] Levon Khachatryan, Andranik Movsisyan, Vahram Tadevosyan, Roberto Henschel, Zhangyang Wang, Shant Navasardyan, and Humphrey Shi. Text2video-zero: Text-to-image diffusion models are zero-shot video generators. In ICCV, 2023.

[2] Hanzhuo Huang, Yufan Feng, Cheng Shi, Lan Xu, Jingyi Yu, and Sibei Yang. Free-bloom: Zero-shot text-to-video generator with llm director and ldm animator. In NeurIPS, 2023.

[3] https://huggingface.co/diffusers/controlnet-canny-sdxl-1.0

[4] https://huggingface.co/diffusers/controlnet-depth-sdxl-1.0

[5] https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

[6] 项目主页：https://gpt4motion.github.io/

更多阅读