Redian新闻
>
中科院、阿里出品FF3D,创建自定义风格化3D人像只需三分钟

中科院、阿里出品FF3D,创建自定义风格化3D人像只需三分钟

公众号新闻

机器之心专栏

机器之心编辑部


3D 人像合成一直是备受关注的 AIGC 领域。随着 NeRF 和 3D-aware GAN 的日益进步,合成高质量的 3D 人像已经不能够满足大家的期待,能够通过简单的方式自定义 3D 人像的风格属性成为了更高的目标,例如直接使用文本描述指导合成想要的 3D 人像风格。


但是 3D 人像的风格化存在一个普遍的问题,当一个高质量的 3D 人像合成模型训练好后(例如训练一个 EG3D 模型),后续往往很难对其进行较大的风格化改变。基于模型隐空间编辑的方法会受限于预训练 3D 人像合成模型的数据分布;直接对 3D 人像不同视角进行风格化会破坏 3D 一致性;自己收集创建一个风格化的多视角人像数据集成本很高。以上这些问题使得大家难以简单的创建风格化 3D 人像。


本文作者们提出一种简单高效的风格化 3D 人像合成方法,能够快速实现基于文本描述的自定义 3D 人像风格化。



  • 论文地址:https://arxiv.org/pdf/2306.15419.pdf

  • 项目网站:https://tianxiangma.github.io/FF3D/


Woodsculpture style


Mangastyle


Hulk


Cartoonishstyle ID1


Cartoonishstyle ID2 


Cartoonishstyle ID3


方法框架


该方法的核心步骤有两个:1. 小样本风格化人像数据集构建,2. Image-to-Triplane 模型微调。方法框架如下。



使用两种先验模型构建小样本风格化人像数据集


人工收集多视角风格化人像数据是困难的,但是研究团队可以利用已有的预训练模型来间接构建这种数据。本文采用两个预训练先验模型 EG3D 和 Instruct-pix2pix (IP2P) 来实现这一目标。


EG3D 是一个高质量的 3D-aware GAN 方法用来提供多视角 3D 一致的人像合成结果,计作:。theta 是模型的参数,w 是从 W 隐空间随机采样的向量编码,v 是人像的渲染方向。该研究随机采样一个 w,并从 - 30 度到 30 度的俯仰角和偏航角范围内均匀采样 i*i 个不同视角的人像。


IP2P 是一个文本引导的图像编辑大模型,该研究用其来对不同视角的人像进行风格化编辑,计作:。phi 是模型参数,I 代表输入的人像图像,n 是随机噪声,c 是文本的条件输入(后面使用 t 来表示)。借助 T ,研究团队可以将上述 i*i 个不同视角的人像进行文本引导的风格化编辑。同时,在实验中研究团队发现 IP2P 在一些文本提示下对于同一个人像的不同视角的风格化编辑结果存在较大的差异。因此该研究对其推理过程进行一些改进,将原始的噪声 n 替换为。该式表示将噪声 n 与输入人像 I 的信息进行加权融合,使得不同视角的人像 I 的风格化编辑结果趋紧相同。此外该研究又引入辅助文本提示 td 和消极文本提示 tn 来增强 IP2P 的生成质量,即新的文本提示为


基于上述过程,该研究提出风格化人像合成 pipeline 为:。该过程为纯模型推理不需要额外的训练。对于 i*i 个不同视角的合成人像,研究团队可以快速构建出一个小样本风格化人像数据集 Ds。


Image-to-Triplane 模型微调


构建出 Ds 后,需要学习一个符合该数据集人像风格的的 3D 模型。针对这个问题,研究团队提出一个 Image-to-Triplane (I2T) 网络,它可以建立人像图像到 Triplane 表征到映射。研究将预训练的 EG3D 模型的 Triplane 合成网络替换为本文提出的的 I2T 网络,并复用剩余的渲染网络。


因为 Ds 数据集的不同视角风格化肖像是 3D 不一致的,所以首先需要对 I2T 网络进行预训练,来预先建立人像到 Triplane 表征的准确映射关系。研究团队利用 EG3D 的合成数据来预训练 I2T 网络,训练损失函数如下:



H 代表 I2T 网络,If 为正视角人像图像输入(由 EG3D 采样提供),p 是 Triplane 表征的真值(也由 EG3D 采样提供)。


利用预训练的 I2T 网络,研究团队就可以在构建好的 Ds 数据集上进行快速微调,让 I2T 的隐空间拟合到 Ds 数据集风格分布。模型微调的损失函数包含重建损失和密度正则损失:




该模型微调是十分高效的,可以在 3 分钟左右完成。至此,就能够得到一个自定义风格(使用文本提示 t 指定)的 3D 人像模型。


实验


在本文的首页所展示的就是一系列高质量的风格化 3D 人像合成结果。为了验证本文方法的可扩展性,研究团队构建了一个多风格多身份人像数据集。他们利用 ChatGPT 生成 100 种不同风格类型的问题提示,包含艺术风格、电影角色风格、游戏角色风格、以及基础属性编辑风格。对于每种风格使用本文的人像风格化 pipeline 合成 10*10 张不同视角的风格化人像,进而构建出包含 10,000 张图像的多风格单身份人像数据集(MSSI)。此外,在 MSSI 的基础上扩展每种风格的身份属性,即随机采样不同的 w 向量,得到多风格多身份人像数据集(MSMI)。该方法在这两个数据集上的微调模型的 3D 人像合成结果如下:




在 I2T 的 ws 隐空间进行插值即可实现 3D 人像的风格变化:



该方法与 baseline 方法的对比结果如下:



更多的方法细节和实验结果请参考论文原文以及项目网站。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《最高人民法院、最高人民检察院、公安部关于依法惩治网络暴力违法犯罪的指导意见(征求意见稿)》面向社会公开征求意见Samsung 27" CF390 Curved Monitor (LC27F390FHEXXY) fhd 60hzCell:中科院研究组成功克隆广谱抗根肿病基因,有望拯救三分之一的十字花科蔬菜无题【社会】医院、敬老院、监狱…钢琴在意想不到之处,重新焕发!近期在招岗位:avolution.ai、京东科技、智源研究院、博世亚太研究院、IDEA研究院国内最新量子计算机真机亮相!求解加速超100倍,创始团队来自清华中科院等正品Fotona4D pro百元拿下!仅限一天速速上车!OpenAI 为ChatGPT增加全新自定义指令功能特别推荐这款宝贝给你 《少年中国史》(套装)中科院、北师大等15位历史教授编审,内容严谨彻底抛弃Transformer,八金刚之一再创业!联手前谷歌Brain大佬创建自然启发智能模型当我开始和自己好好相处|自定义聊天室ChatGPT推出自定义指令:说一次就记住,每次对话都能遵守当今存在自然,20年后难见5067 血壮山河之武汉会战 鏖战幕府山 36面试官:如何使用 Dockerfile 去构建自定义的 Docker 镜像?问倒一大片。。。繁复不是一种美丽中科院自动化所「全模态」大模型亮相,图文音视频3D传感器信号都能理解Slack利用自定义的跟踪架构来协助排查消息通知问题强风格化才会让中小成本影片勃发生机CVPR'23|一张图重建3D人物新思路:完美复刻复杂动作和宽松衣物,遮挡也不在话下重磅!省政府、中科院、教育部,重点共建C9大学新冠未乘黄鹤去......谷歌联合创始人回归做AI;ChatGPT上线自定义指令功能;DeepMind迭代AI设计芯片方法丨AIGC大事日报《少年中国史》套装14册| 中科院、北师大等15位历史教授编审,内容严谨+有趣好读 #精选案例分享:混部共享集群租户内自定义调度编排数据密集型Serverless应用|QCon股价涨超200%!深圳收获一家半导体设备IPO,中科院、华为参投游戏论|模拟的风格化——探讨JRPG的“不自然”之处自定义跟踪架构:Slack 高效解决通知问题湾区现代主义风名宅 340万元售出像相机一样变焦、填充画面细节,还能自定义风格,AI作画神器Midjourney又更新了一句话搞定3D模型纹理贴图,全程只需30秒,港大港中大TCL出品 | ICCV'23 Oral阿里达摩院免费开放100件AI专利;字节推出大模型MBTI测试结果;ChatGPT自定义功能扩展免费丨AIGC大事日报观点 I 亚裔美国人不再只追求“被融入”,还要在主流文化中自定义面试官:如何使用Dockerfile去构建自定义的Docker镜像?问倒一堆
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。