Redian新闻
>
拖拽下图像就能生成视频,中科大、微软等DragNUWA属实惊艳

拖拽下图像就能生成视频,中科大、微软等DragNUWA属实惊艳

公众号新闻
机器之心报道
编辑:小舟

随着 ChatGPT、GPT-4、LLaMa 等模型的问世,人们越来越关注生成式模型的发展。相比于日渐成熟的文本生成和图像生成,视频、语音等模态的 AI 生成还面临着较大的挑战。

现有可控视频生成工作主要存在两个问题:首先,大多数现有工作基于文本、图像或轨迹来控制视频的生成,无法实现视频的细粒度控制;其次,轨迹控制研究仍处于早期阶段,大多数实验都是在 Human3.6M 等简单数据集上进行的,这种约束限制了模型有效处理开放域图像和复杂弯曲轨迹的能力。

基于此,来自中国科学技术大学、微软亚研和北京大学的研究者提出了一种基于开放域扩散的新型视频生成模型 ——DragNUWA。DragNUWA 从语义、空间和时间三个角度实现了对视频内容的细粒度控制。


论文地址:https://arxiv.org/abs/2308.08089

以拖动(drag)的方式给出运动轨迹,DragNUWA 就能让图像中的物体对象按照该轨迹移动位置,并且可以直接生成连贯的视频。例如,让两个滑滑板的小男孩按要求路线滑行:



还可以「变换」静态景物图像的相机位置和角度:



方法简介

该研究认为文本、图像、轨迹这三种类型的控制是缺一不可的,因为它们各自有助于从语义、空间和时间角度控制视频内容。如下图 1 所示,仅文本和图像的组合不足以传达视频中存在的复杂运动细节,这可以用轨迹信息来补充;仅图像和轨迹组合无法充分表征视频中的未来物体,文本控制可以弥补这一点;在表达抽象概念时,仅依赖轨迹和文本可能会导致歧义,图像控制可以提供必要的区别。


DragNUWA 是一种端到端的视频生成模型,它无缝集成了三个基本控件 —— 文本、图像和轨迹,提供强大且用户友好的可控性,从语义、空间和时间角度对视频内容进行细粒度控制。



为了解决当前研究中有限的开放域轨迹控制问题,该研究重点关注三个方面的轨迹建模:

  • 使用轨迹采样器(Trajectory Sampler,TS)在训练期间直接从开放域视频流中采样轨迹,用于实现任意轨迹的开放域控制;
  • 使用多尺度融合(Multiscale Fusion,MF)将轨迹下采样到各种尺度,并将其与 UNet 架构每个块内的文本和图像深度集成用于控制不同粒度的轨迹;
  • 采用自适应训练(Adaptive Training,AT)策略,以密集流为初始条件来稳定视频生成,然后在稀疏轨迹上进行训练以适应模型,最终生成稳定且连贯的视频。


实验及结果

该研究用大量实验来验证 DragNUWA 的有效性,实验结果展示了其在视频合成细粒度控制方面的卓越性能。

与现有专注于文本或图像控制的研究不同,DragNUWA 主要强调建模轨迹控制。为了验证轨迹控制的有效性,该研究从相机运动和复杂轨迹两个方面测试了 DragNUWA。

如下图 4 所示,DragNUWA 虽然没有明确地对相机运动进行建模,但它从开放域轨迹的建模中学习了各种相机运动。


为了评估 DragNUWA 对复杂运动的精确建模能力,该研究使用相同的图像和文本对各种复杂的拖动(drag)轨迹进行了测试。如下图 5 所示,实验结果表明 DragNUWA 能够可靠地控制复杂运动。


此外,DragNUWA 虽然主要强调轨迹控制建模,但也融合了文本和图像控制。研究团队认为,文本、图像和轨迹分别对应视频的三个基本控制方面:语义、空间和时间。下图 6 通过展示文本(p)、轨迹(g)和图像(s)的不同组合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)说明了这些控制条件的必要性。


感兴趣的读者可以阅读论文原文,了解更多研究内容。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
0提示词1张照片生成视频,Gen-2新玩法刷屏!网页版免费可玩澳洲官方新生群!墨大、悉大、ANU、UNSW、UQ...校友集合!3D视频人物肖像生成新突破!港科大、清华等发布AniPortraitGAN,面部表情、肩部运动全可控夫妻联手一年内性侵狗狗5次,还拍成视频,最终被捕了!Jupyter大升级:各种大模型都能连,聊天就能生成代码、错误修改AIGC才是游戏开发新范式,对话就能生成新环境、创造物体无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容女歌手被数名男观众扯腿拽下舞台,现场视频曝光,网友:太可怕…带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频澳洲千人新生群来了!墨大、悉大、ANU、UNSW、UQ...校友集合!《临江仙 - 端午》美国拟限制中国用户使用亚马逊、微软等云服务ICCV 2023 | 中科大&微软提出AFFNet:轻量级视觉新主干大模型不是未来?你需要学习下图灵奖得主Yann LeCun选择的「世界模型」能生成完整剧集的AI来了,GPT-4辅助写剧本,输入提示几秒生成一集《南方公园》|GGView《端午节》&《好啊》清华、微软等淘汰提示工程师?LLM与进化算法结合,创造超强提示优化器在SASAKI内部传疯了!这个神器一秒就能生成AO白模!北大、武大、东大、中科大……南京这所名校高三毕业班“蹭饭地图”流出直播预告| 一降温好像就没衣服穿了?美衣来了!你的DragGAN并不需要点跟踪!中科大和上海AI Lab提出FreeDrag:无需点跟踪即可稳定拖动语义内容GACS 2023 | IPU:赋能生成式AI,不止生成式AI能生成完整剧集的AI来了,GPT-4辅助写剧本,输入提示几秒生成一集《南方公园》我才 20 出头,人生好像就没啥盼头了靠人工智能生成的视频,让你隔着屏幕更易被骗电影预告一键生成,Midjourney+Gen-2生成视频刷屏了文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM'23科举制度和美国的工农兵学员突发!美国将限制中国企业使用亚马逊、微软等云服务乘风破浪的上班路谷歌、微软等“七巨头”发声!茅台酒心巧克力两颗 35 元;B 站:UP 主上传 AI 生成视频需标注;华为新品发布会定档 9 月 25 日 | 极客早知道5098 血壮山河之武汉会战 浴血田家镇 6中科大&微软提出DragNUWA:拖拽下图像就能生成视频!真实惊悚片!加拿大路怒司机从行人身上碾过去
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。