Redian新闻
>
GPT-4联手开源建模软件Blender,打破文本到视频生成的物理界限

GPT-4联手开源建模软件Blender,打破文本到视频生成的物理界限

科学



引言

如上图,Text2Video 模型生成的结果可能是这样的,看起来还不错,基本上都满足了 prompt 的要求,但仔细看下,好像还是有点不对劲,上图中的旗子和下图中的水流不符合物理规律啊!

继 Text2Image 火了之后,研究者们将目光投向了更加复杂的 Text2Video 领域,基于扩散模型的方法也逐渐成为了主流。一种典型思路是基于大规模的 Text-Video 数据集进行训练学习,但这种思路比较费钱,适合有钱的大厂来玩;另外一种思路是所谓的 Trainging Free,基于现有的开源模型来尝试生成一些简单的视频,代表工作有:Text2Video-Zero [1] 和 Free-bloom [2]

但是,这类 Training Free 的方法所生成的视频存在一个严重的问题是无法保证其物理连贯性。既然让现有扩散模型在不训练的条件下来学会物理约束难以实现,那么可否找一个懂物理知识的“老师”来指导扩散模型?


GPT+Blender+SDXL

本篇论文正是采用此种思路提出了一种有趣的解决方案,而这里的“老师”是懂物理的 3D 建模软件 Blender。


论文题目:
🏀GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning

论文链接:

https://arxiv.org/pdf/2311.12631.pdf

项目主页:

https://gpt4motion.github.io/

整个工作流如下图所示:
首先,给 GPT-4 准备一个专门设计的 prompt 模板,用于将用户的 prompt 转换成一个可以驱 Blender 建模的 python 脚本 prompt。具体的 prompt 模板可见下图:

其次,将 python 脚本导入 Blender 软件生成相应的场景仿真,效果如下图所示。因为 Blender 的仿真天然满足各种力学约束,可以保证下游扩散模型在生成视频时满足物理条件。

然后,将 Blender 仿真得到的场景结果作为 condition 驱动下游扩散模型来生成视频。这里,作者先把仿真结果处理成 80 帧的边缘图和深度图,然后分别利用开源的 Canny ControlNet [3] 和 Depth ControlNet [4] 模型将两种图进行特征融合,丢给下游的扩散模型 SDXL [5] 来生成视频。

最后,为了保证生成的视频满足时间一致性,作者将 SDXL 中 U-Net 的自注意力层改为了交叉帧注意力层(cross-frame attention),使得模型在生成当前帧的时候不仅仅注意到本帧,还要注意到第一帧,这里用了一个超参数来控制两者之间的 trade-off。


结果

Prompt:A basketball spins out of the air and falls.



Prompt: Four basketballs spin randomly in the air and fall.


Prompt: A basketball is thrown towards the camera.




总结

本研究的亮点在于巧妙地串联多种工具,提出了一种 Training Free 的 Text2Video 新解决思路。从结果来看,所生成的视频更加符合物理运动规律,看起来更加自然真实。学习各种物理约束需要海量的、高质量的数据,对于一般玩家而言并不现实,而本文提出的这种思路相对更具有一定的实操性。

不过,因为是多工具串联方案,整个工作流程中的每一步都受制于上游的效果。比如,虽然 GPT-4 可以生成 python 脚本,但面对稍微复杂的 prompt 需求,在生成时也很难保证效果,这样就会导致下游的视频生成出现问题。因此,如何提升整个解决方案的健壮性是个值得思考的问题。



参考文献

[1] Levon Khachatryan, Andranik Movsisyan, Vahram Tadevosyan, Roberto Henschel, Zhangyang Wang, Shant Navasardyan, and Humphrey Shi. Text2video-zero: Text-to-image diffusion models are zero-shot video generators. In ICCV, 2023.

[2] Hanzhuo Huang, Yufan Feng, Cheng Shi, Lan Xu, Jingyi Yu, and Sibei Yang. Free-bloom: Zero-shot text-to-video generator with llm director and ldm animator. In NeurIPS, 2023.

[3] https://huggingface.co/diffusers/controlnet-canny-sdxl-1.0

[4] https://huggingface.co/diffusers/controlnet-depth-sdxl-1.0

[5] https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

[6] 项目主页:https://gpt4motion.github.io/



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
谷歌推出创新SynCLR技术:借助AI生成的数据实现高效图像建模,开启自我训练新纪元!快消外企社招 | Lagardère拉格代尔,世界三大旅行零售商之一,百年外企,平均月薪17.2k,0经验可投,留学生有优势保持自己的善良GPT说一个有关Open AI的Chat GPT 创投人和我家的小故事探寻西西里与马耳他的历史脚印(2)科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体上海内推 | 上海人工智能实验室浦视开源体系团队招聘音频生成方向实习生人在秋天,心系玫瑰探寻西西里与马耳他的历史脚印(3)280刀JBL Pulse 5 Portable Bluetooth Speaker (Black)从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成视频里有前男友?谷歌最新AI视频生成器 Lumiere,轻松让他消失飞机云会导致气候变暖!比尔·盖茨和 Google 联手开始“抓”飞机云了;2023五大科技趋势,一个比一个科幻!独角兽思谋科技发布IndustryGPT,打破全球工业大模型空白局面在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键声称勒索中国能源建设集团的Rhysida是个什么组织?Transformer变革3D建模!MeshGPT来了!效果惊动专业建模师。。。让时尚登陆月球:公理空间与普拉达联手开发 NASA 阿耳忒弥斯3号任务宇航服“物理网红”张朝阳重庆大学讲物理:现代人需要对物理有所了解谷歌新作UFOGen:通过扩散GAN实现大规模文本到图像生成文生视频下一站,Meta已经开始视频生视频了Meta清华校友推全新AI「视频生视频」方法!单张A100生成「男人秒变猩猩」大片"妈妈让我来自首",7岁男孩在派出所写下"bǎozhèng书"双林奇案录第三部之昭雪嘉州: 第二节GPT turbo 看了没?!这真是大批失业人员在路上。Transformer变革3D建模,MeshGPT生成效果惊动专业建模师,网友:革命性ideachat gpt 怎么上不去了? 彻底罢工了Meta生成式AI连放大招:视频生成超越Gen-2,动图表情包随心定制专访Pika Labs创始人:探索视频生成的GPT时刻谢耳朵漫画系列《物理大爆炸》:让孩子搞明白那些很酷但听不懂的物理问题时间的湾 1媲美Gen-2,Meta多模态创AI生图新里程碑!破文生视频历史难题,静图秒变视频逼真到炸裂专访丨积家CEO Catherine Rénier:情感联结和艺术表达对腕表也至关重要GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理短视频界的变革者:上海 AI lab 发布 Vlogger,几句话生成分钟级视频2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒弥合2D和3D生成之间的次元壁!X-Dreamer:高质量的文本到3D生成模型打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训AI早知道|Gemini推理能力强于GPT-3.5;美图AI视觉大模型将向公众开放;Meta推全新视频生成模型FlowVid
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。