CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
论文题目:MoMask: Generative Masked Modeling of 3D Human Motions 论文链接:https://arxiv.org/abs/2312.00063 代码链接:https://github.com/EricGuo5513/momask-codes Huggingface Space 链接:https://huggingface.co/spaces/MeYourHint/MoMask
残差量化模型 (Residual VQ-VAE),将人体动作转换为多层离散的动作标记(Token)。基层(即第一层)的动作标记包含了动作的基本信息,而残差层则对应更细粒度的动作信息。 Masked Transformer:对基层的动作标记进行建模,采用随机比例的随机掩码,并根据文本信息预测被掩码的动作标记,用于生成基层动作标记。 Residual Transformer:对残差层的动作标记进行建模,根据前 j 层的动作标记预测第 j 层的动作标记,以此来建模残差层的动作序列。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章