Redian新闻
>
无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成

无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】只要一张参考图片,任何人都可以替换成视频的主角。


随着扩散模型的发展,基于输入文本生成高质量的图片和视频已经成为现实,但是仅使用文本生成视觉内容的可控性有限


为了克服这个问题,研究人员们开始探索额外的控制信号和对现有内容进行编辑的方法。这两个方向在一定程度上实现了生成过程的可控性,但仍然需要依赖文本来描述目标生成内容。


在实际应用中,我们面临着一个新的需求:如果用户想要生成的内容无法用语言描述呢?


例如,用户想生成某一个普通人的视频,但仅在输入文本中使用普通人的名字是无意义的,因为语言模型无法识别不在训练语料中的个体姓名。


针对这个问题,一种可行的解决方案是基于给定个体训练个性化的模型。


例如,DreamBooth和Dreamix通过多张图片理解个体概念,从而进行个性化的内容生成,不过这两种方法需要对每个个体分别进行学习,并且需要该个体的多张训练图片和精细化调参


最近,来自新加坡国立大学(NUS)和华为诺亚实验室的研究者们在个性化视频编辑上取得了新的进展,通过多个集成模型的协同工作,无需对个性化概念进行额外的训练和微调,仅仅需要一张目标参考图片,就能实现对已有视频的主角替换、背景替换以及特定主角的文生视频。


项目主页:https://make-a-protagonist.github.io/

论文地址:https://arxiv.org/pdf/2305.08850.pdf

代码地址:https://github.com/Make-A-Protagonist/Make-A-Protagonist


这项研究为个性化视频编辑领域带来了新的可能性,使得生成个性化内容变得更加简便和高效。





介绍


Make-A-Protagonist将视频分为主角和背景,对二者使用视觉或语言参考信息,从而实现主角编辑、背景编辑和特定主角的文生视频。



主角编辑功能允许用户使用相同的场景描述,但通过参考图像来替换视频中的主角。这意味着用户可以使用自己选择的图像来替换视频中的主要角色。



背景编辑功能允许用户使用与原始视频相同的主角描述(例「Suzuki Jimny」),并使用原始视频帧作为视觉信息,但可以更改对场景的文字描述(例如「in the rain」)。这样,用户可以保持相同的主角,但改变场景的描述,营造出不同的视觉效果。


特定主角的文生视频功能将主角编辑和背景编辑结合起来。用户可以使用参考图像作为主角,并对场景进行描述,从而创造出全新的视频内容。此外,对于多主角视频,Make-A-Protagonist还可以对单个或多个角色进行更改。


与DreamBooth和Dreamix不同,Make-A-Protagonist仅需要单张参考图像,不需要对每个概念进行微调,因此在应用场景上更加灵活多样。Make-A-Protagonist为用户提供了一种简便而高效的方式来实现个性化的视频编辑和生成。


方法



Make-A-Protagonist使用多个强大的专家模型,对原视频、视觉和语言信息进行解析,并结合基于视觉语言的视频生成模型和基于掩码的去噪采样算法,实现通用视频编辑。该模型主要由三个关键部分组成:原视频解析,视觉和语言信息解析,以及视频生成。


具体来说,Make-A-Protagonist推理过程包括以下三步:首先使用BLIP-2, GroundingDINO、Segment Anything 和 XMem等模型对原视频进行解析,获得视频的主角掩码,并解析原视频的控制信号。


接下来,使用CLIP和DALL-E 2 Prior对视觉和语言信息进行解析。最后,使用基于视觉语言的视频生成模型和基于掩码的去噪采样算法,利用解析信息生成新的内容。


Make-A-Protagonist的创新之处在于引入了基于视觉语言的视频生成模型和基于掩码的去噪采样算法,通过整合多个专家模型并解析、融合多种信息,实现了视频编辑的突破。


这些模型的运用使得该系统更加精准地理解原视频、视觉和语言信息,并能够生成高质量的视频内容。


Make-A-Protagonist为用户提供了一款强大而灵活的工具,让他们能够轻松进行通用的视频编辑,创作出独特而令人惊艳的视觉作品。


1. 原视频解析


原视频解析的目标是获取原视频的语言描述(caption)、主角文字描述、主角分割结果以及ControlNet所需的控制信号。


针对caption和主角文字描述,Make-A-Protagonist采用了BLIP-2模型。


通过对BLIP-2的图像网络进行修改,实现了对视频的解析,并使用captioning模式生成视频的描述,这些描述在训练和视频编辑中用于视频生成网络。


对于主角文字描述,Make-A-Protagonist使用VQA模式,提出问题:「视频的主角是什么?」并使用答案进一步解析原视频中的主角信息。


在原视频中的主角分割方面,Make-A-Protagonist利用上述得到的主角文字描述,在第一帧中使用GroundingDINO模型来定位相应的检测内容,并使用Segment Anything模型获得第一帧的分割掩码。然后,借助跟踪网络(XMem),Make-A-Protagonist得到整个视频序列的分割结果。


除此之外,Make-A-Protagonist利用ControlNet来保留原视频的细节和动作,因此需要提取原视频的控制信号。文中使用了深度信号和姿态信号。


通过这些创新的解析方法和技术,Make-A-Protagonist能够准确地解析原视频的语言描述、主角信息和分割结果,并提取控制信号,为后续的视频生成和编辑打下了坚实的基础。


2. 视觉和语言信息解析


对于视觉信号,Make-A-Protagonist在本文中采用CLIP image embedding作为生成条件,为了去除参考图像背景的影响,类似于原视频解析,Make-A-Protagonist使用GroundingDINO和Segment Anything得到参考图像主角的分割掩码,使用掩码将分割后的图像输入CLIP视觉模型,以获取参考视觉信息。


语言信息主要用于控制背景,本文将语言信息用于两方面,一方面使用CLIP语言模型提取特征,作为注意力网络的key和value。


另一方面,使用DALL-E 2 Prior网络,将语言特征转化为视觉特征,从而增强表征能力。


3. 视频生成



3.1 视频生成网络训练


为了充分利用视觉信息,Make-A-Protagonist使用Stable UnCLIP作为预训练模型,并对原视频进行微调,从而实现利用视觉信息进行视频生成。


在每个训练迭代中,Make-A-Protagonist提取视频中随机一帧的CLIP image embedding,将其作为视觉信息输入到Residual block中。


3.2 基于掩码的去噪采样



为融合视觉信息和语言信息,本文提出基于掩码的去噪采样,在特征空间和隐空间对两种信息进行融合。


具体来说,在特征域,Make-A-Protagonist使用原视频的主角掩码,将主角对应部分使用视觉信息,背景对应部分使用DALL-E 2 Prior转化后的语言信息:



在隐空间中,Make-A-Protagonist将仅使用视觉信息的推理结果和经过特征融合的推理结果按照原视频的主角掩码进行融合:



通过特征空间和隐空间的信息融合,生成的结果更加真实,并且与视觉语言表述更加一致。


总结


Make-A-Protagonist引领了一种全新的视频编辑框架,充分利用了视觉和语言信息。


该框架为实现对视觉和语言的独立编辑提供了解决方案,通过多个专家网络对原视频、视觉和语言信息进行解析,并采用视频生成网络和基于掩码的采样策略将这些信息融合在一起。


Make-A-Protagonist展现了出色的视频编辑能力,可广泛应用于主角编辑、背景编辑和特定主角的文生视频任务。


Make-A-Protagonist的出现为视频编辑领域带来了新的可能性。它为用户创造了一个灵活且创新的工具,让他们能够以前所未有的方式编辑和塑造视频内容。


无论是专业编辑人员还是创意爱好者,都能够通过Make-A-Protagonist打造出独特而精彩的视觉作品。


参考资料:
https://make-a-protagonist.github.io/




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
戴着苹果Vision Pro打麻将!NTU微软华人团队联手打造Otter-E,专为AR头显设计无需人力标注!悉尼大学华人团队提出「GPT自监督标注」范式,完美解决标注成本、偏见、评估问题AI读心升级版!NUS、港中文华人团队新作,高清视频1秒生成,准确率超SOTA 45%胡歌妻子曝光2个月后,一张照片刺痛全网:40岁后有福之人,果然是这种田渊栋团队最新研究:不到1000步微调,将LLaMA上下文扩展到32KMeta视觉大模型来了!完全自监督无需微调,多任务效果超OpenCLIP直播预告丨MDT团队破解消化道肿瘤病友的“隐形杀手”几张照片即可定制自己的3D化身,还能换装!南京大学发布AvatarBooth:3D模型的制作门槛被打下来了!复旦新作:单机微调650亿参数大模型;蚂蚁、百度参投AI大模型创企;杭州检方对AI换脸案提起公诉丨AIGC大事日报开篇五一节,一张照片刺痛全网!截肢、变卖家产、被盗猎者围殴,却捡垃圾30年,我突然看懂了他的坚持…一张照片生成3D头像!苹果新模型击败StyleGAN2,表情光线都能调,网友:要用于MR?90后清洁工辞职旅行,一张照片卖6万,狂吸260万粉丝,还撩到了白富美,网友:人生赢家......“视频领域的Midjourney”!AI视频生成新秀Gen-2内测作品流出,网友直呼太逼真重磅!Meta开源DINOv2视觉大模型!无需微调,效果惊人!憨老头吐槽马克谈天下(371) 我看TIKTOK在美国的可能命运小扎亲自官宣Meta视觉大模型!自监督学习无需微调,多任务效果超OpenCLIP丨开源丘陵地带的一座乡村小城镇CRISPR癌症个性化疗法的首个人体临床试验Nature子刊|威大华人团队全新多模态数据分析及生成方法JAMIE,大幅提升细胞类型、功能预测能力59元买一送一| 方脸、圆脸、三角脸,墨镜都该怎么选?NUWA系列再添新成员——超长视频生成模型NUWA-XL全球首发,国产开源「文本-视频生成」模型!免费在线体验,一键实现视频生成自由从此告别繁琐的模型微调,LLM-Adapters助力NLP任务快速高效微调!3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准CVPR 2023 | 一块隔热片即可实现红外场景下的物理攻击,北航提出针对红外行人检测器的漏洞挖掘技术UCSD、MIT等华人团队教机器狗感知3D世界!搭M1芯片,爬楼跨障无所不能|CVPR 2023关闭个性化广告6个月后自动恢复,我的学生决定起诉大厂|郭兵 一席第971位讲者震撼视频!泰坦号「0.03秒内爆」5人瞬间死亡!舱内温度如太阳!美国海军监听到爆炸!最后一张照片流出AI越来越神:7人团队开发,一句话生成3D游戏的MoonlanderAI是啥无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型AI大战开启:TikTok正在推出生成型AI头像 提交3-10张照片即可生成《西線無戰事》拍出戰火浮生錄
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。