©PaperWeekly 原创 · 作者 | Yifan Zhan论文标题:
Within the Dynamic Context: Inertia-aware 3D Human Modeling with Pose Sequence
https://arxiv.org/abs/2403.19160
https://github.com/Yifever20002/Dyco
▲ 与 HumanNeRF 相比,Dyco 能正确模拟由惯性导致的裙摆运动变化
▲ Dyco 可以模拟不同速度下的运动,如低速裙摆下垂,高速裙摆飘起
随着 NeRF(Neural Radiance Fields)等一众深度神经渲染方法的兴起,传统方法如基于 SMPL 的人体重建获得了更高的渲染质量。然而,现有的人体 NeRF 往往依赖预提取的 3D-SMPL 模型进行逐帧训练,忽略了人体运动上下文导致的外表变化(如旋转导致的裙摆飘动)。这种逐帧训练模式为人体建模引入了单帧姿态控制下的外表歧义,即:相近的人体姿态输入,可能对应截然不同的两种外表。
我们可以关注下图来充分理解上述的歧义。在一段人体视频观测中(动作为裙摆随着旋转飘起而后落下),我们获得了四帧外表信息,分别对应了预提取的四帧 SMPL 姿态(Observation)。注意到第三帧和第四帧具有相近的人体姿态,而外表却天差地别(裙摆飘起和落下)。使用传统的人体 NeRF,在输入仅由人体姿态控制时,将会得到相似的渲染结果(Rendering 中的 Baseline 结果)。一种直观的解决思路是引入额外的控制量来解开歧义(如时间戳),但这种额外输入将使得泛化到新姿态上变得非常困难。如何仅通过现有的 SMPL 输入解开外表歧义,达到高质量渲染,便成了值得研究的问题。在本文中,我们提出 Dyco,通过姿态序列而非单帧姿态来控制人体建模,从而在不引入额外输入的前提下顺利解决了单帧姿态下的外表歧义(我们的结果对应上图 Rendering 的 Ours)。
SMPL 模型仅能建模人体形状和动作,却无法建模人体外部衣料的外观。因此,仅依赖单帧 SMPL 模型姿态的建模仍然存在固有的外表歧义,无法充分理解衣料的外表变化。我们可以回忆牛顿惯性定律所述:惯性是物体具有保持原来运动状态的性质。
事实上,不同的速度和加速度模式下,人体在相同姿态下外表均会有不同程度的惯性表现,这是现有的人体 NeRF 无法理解的。我们将单帧姿态控制下的外表歧义归咎为系统缺乏对人体惯性的感知(下文将统一称为惯性歧义)。虽然单帧 SMPL 姿态无法感知惯性,但是 SMPL 姿态序列有良好的惯性感知能力,也能够充分解决惯性歧义。具体地,两帧相邻 SMPL 姿态可以获得速度信息,而多帧 SMPL 姿态可以获得加速度信息,间接反映系统惯性。因此,我们拟使用 SMPL 姿态序列而非单帧姿态来对人体进行建模,使其获得较好的解歧义能力。在网络设计上,也许输入的 SMPL 单帧姿态相同,但当外表不同时,往往意味着一段时间前的 SMPL 姿态序列不同,因此将姿态序列作为输入更能让网络感知到惯性。
解决方法
我们注意到,和惯性相关的物理量如速度和加速度均只与相邻帧姿态变化量有关,因此我们将姿态()序列建模成姿态变化量()的序列。具体地,我们定义一个长度为 , 序列步长为 以及 序列步长为 的 序列为:其中, 是一个 3K + 3 维向量,代表两个姿态之间以轴角形式表示的每个关节的旋转差异以及全局平移差异。由于 只包含局部信息,因此实际使用时我们将这部分内容与当前全局姿态 结合。我们使用结合后的姿态序列信息作为非刚体形变和颜色映射的输入条件,来取代传统人体 NeRF 仅使用 的逐帧建模。为了进一步提取 中的有效信息并防止过拟合,我们额外提出了局部动态上下文编码器(Localized Dynamic Context Encoder)模块。我们从人体运动的基本观察中,大部分衣料的运动只和它们直接附着的运动链有关(如袖子由手部控制,而裙子由腰部控制),因此我们提出运动链引导的衣料控制掩码(Kinematically-guided Masking),并将 中与当前点运动链不相关的姿态成分置零。
在空间上,我们将每一组 通过 MLP 降维成 16 维向量,在时间上,我们进一步将 维的特征压缩成 32 维。生成的 32 维 特征与坐标和 结合,并作为后续非刚体形变和颜色映射的输入。下图展示了我们的方法的完整流程。目前的多视角人体数据集,如 ZJU-MoCap、PeopleSnapshot 和 Human3.6M,都是在限制速度和紧身服装下采集的,消除了惯性引起的动态效应。这一限制使我们无法测试模型真正解决惯性歧义的能力。
为了解决这一问题,我们提出了一个针对这类问题的全新数据集,名为惯性感知 3D 人体(I3D-Human)数据集。该数据集侧重于捕捉在大致相同姿态下服装外观的变化。与现有数据集着装相比,我们为被试者穿上宽松的服装,如连衣裙和轻便外套,并进行复杂的加减速运动,如旋转后的突然停止、摆动和袖子的挥动。我们使用 10 台 DJI Osmo Action 相机,并以 100 帧/秒的帧率拍摄,使用音频信号同步。最终处理的数据集记录了来自 6 个动作 id 的总共 10,000 帧的序列。
5.1 渲染效果
为了比较动态渲染的效果,我们引入了新的评价指标动态运动误差 DME(dynamic motion error),这是一种基于光流的评价指标:我们在 I3D-Human 数据集上与主流的人体 NeRF 方法进行了比较,结果如下:我们设计新的惯性姿态来验证 Dyco 能够正确建模惯性因素与外观变化之间的关联。速度方面,我们通过改变 SMPL 姿态的速度(手动修改步长)来创建新的动态速度上下文。我们惊喜地发现,在不同速度模式下(不同 ),Dyco 能渲染出不同的运动效果,如低速裙摆基本垂下,而高速裙摆飘起,这与惯性效应相吻合。加速度方面,我们通过设计一段急停的 SMPL 姿态(强制后半段姿态保持不变)来模拟人突然停止时裙摆后续的运动,创建新的动态加速度上下文。Dyco 同样能自然模拟裙摆从飘起到下落的一系列动作,而传统人体 NeRF 无法做到。
在这项工作中,我们介绍了 Dyco,这是一种新颖的人体运动建模方法,结合姿态序列来解决由不同动态上下文引起的惯性歧义问题。我们认为,人体外观不仅受到当前帧姿态的影响,还受到过去运动姿态的影响,而这些影响可以通过姿态序列充分捕捉。
为了减轻在过度依赖姿态序列的过拟合问题,我们设计了一个局部动态上下文编码器。这种方法使我们能够解决由动态上下文引起的惯性歧义,并提高宽松服装下人体的渲染质量。I3D-Human 数据集解决了以往数据集中速度差异过小,衣料过度贴身等问题,并推进了对复杂衣着和速度模式下人体运动的研究。最后,欢迎大家点🌟!
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧