Redian新闻
>
中科大&微软提出DragNUWA:拖拽下图像就能生成视频!

中科大&微软提出DragNUWA:拖拽下图像就能生成视频!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【扩散模型和Transformer】交流群

来源:机器之心

在CVer公众号后台回复:DragNUWA,可下载本论文PDF

随着 ChatGPT、GPT-4、LLaMa 等模型的问世,人们越来越关注生成式模型的发展。相比于日渐成熟的文本生成和图像生成,视频、语音等模态的 AI 生成还面临着较大的挑战。

现有可控视频生成工作主要存在两个问题:首先,大多数现有工作基于文本、图像或轨迹来控制视频的生成,无法实现视频的细粒度控制;其次,轨迹控制研究仍处于早期阶段,大多数实验都是在 Human3.6M 等简单数据集上进行的,这种约束限制了模型有效处理开放域图像和复杂弯曲轨迹的能力。
基于此,来自中国科学技术大学、微软亚研和北京大学的研究者提出了一种基于开放域扩散的新型视频生成模型 ——DragNUWA。DragNUWA 从语义、空间和时间三个角度实现了对视频内容的细粒度控制。本文共一作殷晟明、吴晨飞,通讯作者段楠。
论文地址:https://arxiv.org/abs/2308.08089

在CVer公众号后台回复:DragNUWA,可下载本论文PDF

以拖动(drag)的方式给出运动轨迹,DragNUWA 就能让图像中的物体对象按照该轨迹移动位置,并且可以直接生成连贯的视频。例如,让两个滑滑板的小男孩按要求路线滑行:


还可以「变换」静态景物图像的相机位置和角度:

方法简介
该研究认为文本、图像、轨迹这三种类型的控制是缺一不可的,因为它们各自有助于从语义、空间和时间角度控制视频内容。如下图 1 所示,仅文本和图像的组合不足以传达视频中存在的复杂运动细节,这可以用轨迹信息来补充;仅图像和轨迹组合无法充分表征视频中的未来物体,文本控制可以弥补这一点;在表达抽象概念时,仅依赖轨迹和文本可能会导致歧义,图像控制可以提供必要的区别。

DragNUWA 是一种端到端的视频生成模型,它无缝集成了三个基本控件 —— 文本、图像和轨迹,提供强大且用户友好的可控性,从语义、空间和时间角度对视频内容进行细粒度控制。

为了解决当前研究中有限的开放域轨迹控制问题,该研究重点关注三个方面的轨迹建模:
  • 使用轨迹采样器(Trajectory Sampler,TS)在训练期间直接从开放域视频流中采样轨迹,用于实现任意轨迹的开放域控制;
  • 使用多尺度融合(Multiscale Fusion,MF)将轨迹下采样到各种尺度,并将其与 UNet 架构每个块内的文本和图像深度集成用于控制不同粒度的轨迹;
  • 采用自适应训练(Adaptive Training,AT)策略,以密集流为初始条件来稳定视频生成,然后在稀疏轨迹上进行训练以适应模型,最终生成稳定且连贯的视频。
实验及结果
该研究用大量实验来验证 DragNUWA 的有效性,实验结果展示了其在视频合成细粒度控制方面的卓越性能。
与现有专注于文本或图像控制的研究不同,DragNUWA 主要强调建模轨迹控制。为了验证轨迹控制的有效性,该研究从相机运动和复杂轨迹两个方面测试了 DragNUWA。
如下图 4 所示,DragNUWA 虽然没有明确地对相机运动进行建模,但它从开放域轨迹的建模中学习了各种相机运动。

为了评估 DragNUWA 对复杂运动的精确建模能力,该研究使用相同的图像和文本对各种复杂的拖动(drag)轨迹进行了测试。如下图 5 所示,实验结果表明 DragNUWA 能够可靠地控制复杂运动。
此外,DragNUWA 虽然主要强调轨迹控制建模,但也融合了文本和图像控制。研究团队认为,文本、图像和轨迹分别对应视频的三个基本控制方面:语义、空间和时间。下图 6 通过展示文本(p)、轨迹(g)和图像(s)的不同组合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)说明了这些控制条件的必要性。
感兴趣的读者可以阅读论文原文,了解更多研究内容。

在CVer公众号后台回复:DragNUWA,可下载本论文PDF

点击进入—>【扩散模型和Transformer】交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

扩散模型和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如扩散模型或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GACS 2023 | IPU:赋能生成式AI,不止生成式AI文学城才女 艰难的奋斗史微软提出KOSMOS-2.5,能阅读「文本密集图像」的多模态大语言模型Holiday Special 七月上 望七月 ~~ poem & song by 盈盈 & AP你的DragGAN并不需要点跟踪!中科大和上海AI Lab提出FreeDrag:无需点跟踪即可稳定拖动语义内容NeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务在SASAKI内部传疯了!这个神器一秒就能生成AO白模!能生成完整剧集的AI来了,GPT-4辅助写剧本,输入提示几秒生成一集《南方公园》《月光下的诉说》&《你可听见我这颗心》ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测纪念家驹【不再犹豫 】&【逝去日子】ICCV 2023 | 刷新多项记录!武大&快手提出DVIS:解耦视频实例分割框架茅台酒心巧克力两颗 35 元;B 站:UP 主上传 AI 生成视频需标注;华为新品发布会定档 9 月 25 日 | 极客早知道拖拽下图像就能生成视频,中科大、微软等DragNUWA属实惊艳能生成完整剧集的AI来了,GPT-4辅助写剧本,输入提示几秒生成一集《南方公园》|GGView既然永不相见,何不一拍两散 ?《原神》冰箱贴:神子&宵宫&申鹤&甘雨&刻晴&优菈&莫娜7位角色!无需点跟踪,克服DragGAN缺陷!中科大联合上海AI Lab发布FreeDrag:可稳定拖动语义内容节日快乐&请教抽烟烟机修理维护清华&腾讯提出DreamDiffusion:你大脑中的画面,可以高清还原了!中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!Jupyter大升级:各种大模型都能连,聊天就能生成代码、错误修改【美国春天印象5年飞兔藏龙卧虎跨年音乐会】《岳阳楼记先天下之忧而忧》范仲淹 &《陋室铭山不在高有仙则名,水不在深有龙则灵0提示词1张照片生成视频,Gen-2新玩法刷屏!网页版免费可玩ICCV 2023 | 复旦&微软提出ILA:基于可学习隐式对齐的时序建模方法复旦大学联合华为诺亚提出VidRD框架,实现迭代式的高质量视频生成电影预告一键生成,Midjourney+Gen-2生成视频刷屏了AIGC才是游戏开发新范式,对话就能生成新环境、创造物体码农狂喜!微软提出CodePlan,跨168个代码库编码任务,LLM自动化完成不要予人有大恩,不要非奸即盗2023 樱花之约(五)雨中涉成园老地雷&高歌低吟《Help me make it through the night》画你所想!北航港大提出DiffSketcher:基于扩散模型的文本驱动矢量化手绘草图合成语言模型战胜扩散模型!谷歌提出MAGVIT-v2:视频和图像生成上实现双SOTA!带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频女歌手被数名男观众扯腿拽下舞台,现场视频曝光,网友:太可怕…文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM'23中科大提出:LLMs的个性化综述,详述大模型与个性化的挑战与机遇ICCV 2023 | 中科大&微软提出AFFNet:轻量级视觉新主干
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。