Redian新闻
>
SIGGRAPH 2023|DreamFace:一句话生成3D数字人?

SIGGRAPH 2023|DreamFace:一句话生成3D数字人?

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Transformer】微信技术交流群

转载自:机器之心

在科技迅速发展的今天,生成式人工智能和计算机图形学领域的研究日益引人注目,影视制作、游戏开发等行业正面临着巨大的挑战和机遇。本文将为您介绍一项 3D 生成领域的研究 ——DreamFace,它是首个支持 Production-Ready 3D 资产生成的文本指导渐进式 3D 生成框架,能够实现文本生成可驱动的 3D 超写实数字人。


这项工作已经被计算机图形领域国际顶级期刊 Transactions on Graphics 接收,并将在国际计算机图形顶级会议 SIGGRAPH 2023 上展示。



项目网站:https://sites.google.com/view/dreamface
预印版论文:https://arxiv.org/abs/2304.03117
Web Demo: https://hyperhuman.top
HuggingFace Space:https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar


引言


自文本和图像生成技术取得巨大突破以来,3D 生成技术逐渐成为了科研和产业界关注的焦点。然而,目前市面上的 3D 生成技术仍然面临着许多挑战,包括 CG 管线兼容性问题、准确性问题以及运行速度问题。


为了解决这些问题,来自影眸科技与上海科技大学的研发团队提出了一种文本指导的渐进式 3D 生成框架 ——DreamFace。该框架能够直接生成符合 CG 制作标准的 3D 资产,具有更高的准确性、更快的运行速度和较好的 CG 管线兼容性。本文将对 DreamFace 的主要功能进行详细介绍,并探讨其在影视制作、游戏开发等行业的应用前景。


DreamFace 框架概述



DreamFace 框架主要包括三个模块:几何体生成、基于物理的材质扩散生成和动画能力生成。这三个模块相辅相成,共同实现了一种高效而可靠的 3D 生成技术。


几何体生成



几何体生成模块的核心任务是根据文本提示生成与之一致的几何模型。DreamFace 采用了基于 CLIP(Contrastive Language-Image Pre-Training)的选择框架,首先从人脸几何参数空间内随机采样的候选项中选择最佳的粗略几何模型,然后通过隐式扩散模型(LDM)雕刻几何细节,使头部模型更符合文本提示。此外,该框架还支持基于文本提示的发型和颜色生成。



基于物理的材质扩散生成


基于物理的材质扩散生成模块旨在预测与预测几何体和文本提示一致的面部纹理。DreamFace 首先将预先训练的 LDM 在收集的大规模 UV 材质数据集上微调,得到两个 LDM 扩散模型。然后,采用联合训练方案协调两个扩散过程,一个用于直接去噪 UV 纹理贴图,另一个用于监督渲染图像。



为了确保所创建的纹理地图不含有不良特征或照明情况,同时仍保持多样性,设计了一种提示学习策略。团队利用两种方法生成高质量的漫反射贴图:(1)Prompt Tuning。与手工制作的特定领域文本提示不同,DreamFace 将两个特定领域的连续文本提示 Cd 和 Cu 与相应的文本提示结合起来,这将在 U-Net 去噪器训练期间进行优化,以避免不稳定和耗时的手工撰写提示。(2)非面部区域遮罩。LDM 去噪过程将额外地受到非面部区域遮罩的限制,以确保生成的漫反射贴图不含有任何不需要的元素。


最后,通过超分辨率模块生成 4K 基于物理的纹理,以进行高质量渲染。



动画能力生成



DreamFace 生成的模型具备动画能力。通过预测独特的变形,为生成的静息(Neutral)模型赋予动画效果,从而产生个性化的动画。与使用通用 BlendShapes 进行表情控制的方法相比,DreamFace 的神经面部动画方法能够提供更细致的表情细节,并且能够精细地捕捉表演。



应用和展望



DreamFace 框架在名人生成、根据描述生成角色等方面取得了优异的成绩。此外,还支持使用提示和草图进行纹理编辑,实现全局的编辑效果,如老化和化妆。通过进一步结合掩模或草图,可以创建各种效果,如纹身、胡须和胎记。


DreamFace 的渐进式生成框架为解决复杂的 3D 生成任务提供了一种有效的解决方案,有望推动更多类似的研究和技术发展。此外,基于物理的材质扩散生成和动画能力生成将推动 3D 生成技术在影视制作、游戏开发和其他相关行业的应用,让我们拭目以待它在未来的发展和应用。

点击进入—>【Transformer】微信技术交流群


最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群

CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
糖画:3D打印的东方美学|PRINT IN MYWAY|DEEP GREENSIGGRAPH2023|DreamFace:一句话生成 3D 数字人?华为盘古大模型3.0正式发布!一句对话生成代码,还能解决世界难题...CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征单卡30秒跑出虚拟3D老婆!Text to 3D生成看清毛孔细节的高精度数字人,无缝衔接Maya、Unity等制作工具CVPR 2023|Crowd3D:数百人大场景3D位置、姿态、形状重建,开源benchmark数据集证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 2023自然语言融入NeRF,给点文字就生成3D图的LERF来了无需任何3D数据,直接文本生成高质量3D内容,清华朱军团队带来重大进展微软3D生成扩散模型RODIN,秒级定制3D数字化身CVPR 2023|无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA什么叫人生赢家。。活到九十九?Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙江苏90后女教师自曝“丑闻”,内容劲爆毁三观,校领导也牵涉其中这个傻瓜式地图神器能绘制等高线,还能生成3D地形!(附神器下载)用一句话生成一部剧本,一览科技是怎么做到的?5分钟生成漫威3D数字人!美队蜘蛛侠小丑都能搞定,高清还原面部细节丨SIGGRAPH 2023OpenAI文本生成3D模型再升级,数秒完成建模,比Point·E更好用资本下的全民免费医疗万分昴贵2023 春 祝姐妹们周末快乐!2023 康复6年痊愈1年!CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey军旅故事原创系列(49)国徽国际要闻简报,轻松了解天下事(032022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一全球首发!一句话生成可编辑的 UI 设计稿,全新「即时 AI」开启万人内测!【2023|Greenhouse现房来了!】【3.15更新】AI越来越神:7人团队开发,一句话生成3D游戏的MoonlanderAI是啥蔡天凤案重大进展!前公公是军师身份,真正动手的是另外三人一句话生成 PPT,一分钟读懂外语论文,WPS AI 又进化了!一张照片生成3D头像!苹果新模型击败StyleGAN2,表情光线都能调,网友:要用于MR?ICLR 2023|场景三维重建新SOTA!基于3D Transformer的单目场景重建发力推广数字人民币!这一省农信社新目标明确:争当数字人民币全国标杆一句话生成3D游戏世界!9人开发、AIGC支撑的Roleverse是啥?CVPR 2023|Crowd3D:支持数百人3D/姿态/形状/位置重建的新基准国际要闻简报,轻松了解天下事(03OpenAI再发3D生成模型Shap-E,传Midjourney入局3D模型生成科大讯飞招聘:校招与社招全职,大模型/NLP/计算机视觉/3D数字人等方向视频版Midjourney又进化了:一句话生成视频,谷歌注资,网友大呼好莱坞已死!一行文本,生成3D动态场景:Meta这个「一步到位」模型有点厉害
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。