Redian新闻
>
Champ首发开源:人体视频生成新SOTA,5天斩获1k星,demo可玩

Champ首发开源:人体视频生成新SOTA,5天斩获1k星,demo可玩

公众号新闻
机器之心专栏
机器之心编辑部
一张照片 + 一段视频,就能让照片活起来!

近日,由阿里、复旦大学、南京大学联合发布的可控人体视频生成工作 Champ 火爆全网。该模型仅开源 5 天 GitHub 即收获 1k 星,在 Twitter 更是「火出圈」,吸引了大量博主二创,浏览量总量达到 300K。



目前 Champ 已经开源推理代码与权重,用户可以直接从 Github 上下载使用。官方 Hugging Face 的 Demo 已经上线,封装的 Champ-ComfyUI 也正在同步推进中。GitHub 主页显示团队将会在近期开源训练代码及数据集,感兴趣的小伙伴可以持续关注项目动态。



  • 项目主页:https://fudan-generative-vision.github.io/champ/

  • 论文链接:https://arxiv.org/abs/2403.14781

  • Github 链接:https://github.com/fudan-generative-vision/champ

  • Hugging Face 链接:https://huggingface.co/fudan-generative-ai/champ


先来看下 Champ 在真实世界人像上的视频效果,以下图左上角的动作视频为输入,Champ 能让不同的人像「复制」相同的动作:



虽然 Champ 仅用真实的人体视频训练,但它在不同类型的图像上展现了强大的泛化能力:



黑白照片,油画,水彩画等效果拔群,在不同文生图模型生成的真实感图像,虚拟人物也不在话下:



技术概览


Champ 利用先进的人体网格恢复模型,从输入的人体视频中提取出对应的参数化三维人体网格模型 SMPL 序列(Skinned Multi-Person Linear Model),进一步从中渲染出对应的深度图,法线图,人体姿态与人体语义图,作为对应的运动控制条件去指导视频生成,将动作迁移到输入的参考人像上,能够显著地提升人体运动视频的质量,以及几何和外观一致性。



针对不同的运动条件,Champ 采用了一个多层运动融合模块(MLMF),利用自注意力机制充分融合不同条件之间的特性,实现更为精细化的运动控制。下图中展示了该模块不同条件的注意力可视化结果:深度图关注人物形态的几何轮廓信息,法线图指示了人体的朝向,语义图控制人体不同的部分的外观对应关系,而人体姿态骨架则仅关注于人脸与手部的关键点细节。



另一方面,Champ 发现并解决了人体视频生成中一直被忽略的体型迁移的问题。此前的工作或是基于人体骨骼模型,或是基于输入的视频得到的其他几何信息来驱动人像的运动,但这些方法都无法将运动与人体体型解耦,导致生成的结果无法与参考图像的人体体型匹配。


例如,给定一个大胖作为参考图像得到的如下图 7 所示的对比结果:



可以看到,Animate Anyone 与 MagicAnimate 的生成结果中,大胖的大肚子被抹平,甚至骨架也有一些缩水。而 Champ 利用 SMPL 中体型参数,来将其与驱动视频的 SMPL 序列进行参数化的体型对齐,从而在体型,动作上都取得了最佳的一致性(图中 with PST)。


实验结果


如下表 4 所示,与其他的 SOTA 工作相比,Champ 具有更好的运动控制以及更少的伪影:



同时,Champ 还展现了其优越的泛化性能与外观匹配上的稳定性:




在 TikTok Dance 数据集,Champ 评估了图像生成与视频生成的量化效果,它在多个评估指标上均有较大的提升,如下表 1 所示。



更多技术细节以及实验结果请参阅 Champ 原论文与代码,也可在 HuggingFace 或下载官方源码动手体验。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
阿尔特曼称GPT-5提升超想象;库克在中国首谈生成式AI;字节推出视频生成新模型丨AIGC大事日报揭秘最强视频生成模型 Sora,OpenAI 是怎么实现 1 分钟一镜到底的?1元=1700000tokens!清华系发布国产Mistral仅2B,老手机都带得动,GitHub一天斩获300+星Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTAStability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩美股又创新高了,你还在观望吗?定西人大系多模态模型迈向AGI:首次实现自主更新,写真视频生成力压SoraAI视频年大爆发!Gen-2/Pika成时代爆款,2023年AI视频生成领域的现状全盘点让人物动起来!南大/复旦/阿里提出Champ:人体视频生成新SOTA!Sora场景转「3D资产」!浙大CAD&CG全重实验室提出文本转3D新SOTA:多功能、可拓展聊一下关于孩子上大学和挣大钱的事情AGI 加速降临!人大系多模态模型首次实现自主更新,写真视频生成力压 SoraMeta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA过紧日子;掼蛋扑克;特斯拉赛博电动皮卡;燃油宝不是宝腾讯混元文生图大模型开源:Sora 同架构,更懂中文,已支持 16s 视频生成马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星谷歌7大模型22项AI大招轰炸:70秒视频生成、Gemini安卓合体、200万tokens上下文【长篇小说】县委副书记(026)两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源复刻Sora的通用视频生成能力,开源多智能体框架Mora来了吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型Open-Sora 全面开源升级:支持 16s 视频生成和 720p 分辨率全日程发布|Sora之后的视频生成技术与应用全日程发布,Sora 之后的视频生成技术与应用| Q推荐安省留学生数量或腰斩,渥太华三校更低,卡大一年仅获1k+学签批准!硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎效果炸裂!OpenAI 发布首个视频生成模型,这就是 AI 视频的 GPT 时刻Open-Sora全面开源升级:支持16s视频生成和720p分辨率Open-Sora 全面开源升级:支持单镜头16s视频生成和720p分辨率GPT-4加Agent轻松追平Devin!普林斯顿造,开源首日斩获1.6k星OpenAI CEO最新演讲:GPT-5性能远超GPT-4;媲美Sora,视频生成模型EMO上线通义APP丨AIGC日报清华微软开源全新提示词压缩工具,长度骤降80%!GitHub怒砍3.1K星
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。