Redian新闻
>
ICCV 2023 | 清华&西电提出HumanMAC:人体动作预测新范式

ICCV 2023 | 清华&西电提出HumanMAC:人体动作预测新范式

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信交流群

作者:Evan CHEN |  已授权转载(源:知乎)编辑:CVer

https://zhuanlan.zhihu.com/p/643860730

我们一篇关于人体动作预测的研究工作被计算机视觉国际顶级会议ICCV 2023录用,代码[1]开源,demo讲解[2]、项目主页[3]、中文文档[4]开放。

HumanMAC: Masked Motion Completion for Human Motion Prediction
主页:https://lhchen.top/Human-MAC
论文:https://arxiv.org/abs/2302.03665
代码:https://github.com/LinghaoChan/HumanMAC

人体动作预测是计算机视觉和图形学中的一个经典问题,旨在提升预测结果的多样性、准确性,并在自动驾驶、动画制作等多领域有非常多具体的应用。本研究梳理了今年来大家对于该问题的建模方式,认为以往的大多数工作对于动作预测任务都是使用一种encoding-decoding的范式。这类范式大多是将观测帧编码进隐空间,然后从隐空间解码出预测帧。我们认为这种方式存在三个缺点:

  • 大多数SOTA的方法需要多个loss作为目标约束,需要精细化地调节多个loss之间的权重,需要极其繁重的调参工程

  • 大多数SOTA的方法需要多阶段训练,特别是需要预训练encoder和decoder,这使得预测结果非常依赖于预训练的质量

  • 对于这些方法来说,很难实现不同类别运动的切换,例如从“WalkDog”到“Sitting”的切换,这对于结果多样性至关重要。出现这个现象的原因是这些方法所使用的训练数据包括很少这样的切换。

为克服上述问题,我们提出了一种建模动作预测问题的全新范式:掩码动作补全。如图1(b)所示,我们认为预测问题就是一种特殊的补全问题,可以借助diffusion model的补全能力解决上述挑战。如果使用这种范式,我们是需要一个loss、训练一个阶段就可以实现预测,可以说是“大道至简”。并且由于我们建模了全局的动作,模型很容易学习到平滑性,就能自动实现动作的切换

encoding-decoding方式与掩码运动补全的比较。(a)encoding-decoding的方法将观测帧显式地编码到隐空间,然后将隐空间变量解码为预测结果。(b)HumanMAC在训练阶段由噪声生成运动。在推理阶段完成补全动作的任务。

为了解决动作抖动等问题,我们借鉴了以往工作在频域建模的思路[5][6],通过DCT变换,对数据在频域进行训练。也就是说,我们的diffusion model是动作频谱的生成模型,在输出结果的时候只需要做iDCT变换即可复原动作。为此,我们设计了一个补全算法:DCT-Completion。算法流程和示意图如下。

由于动作预测的问题只是一个特殊的掩码补全问题,我们可以灵活地使用mask实现各种“花式”可控动作补全

  • 动作切换

动作切换
  • 特定躯体可控动作编辑

特定躯体可控动作编辑

在量化指标上我们仅仅通过一个loss、一阶段训练就可以和以往的工作不相上下了(我们还比较了最新的arxiv算法)。多样性的指标逊色于baseline方法的原因,主要来自于baseline方法生成的“多样”结果存在大量的failure cases,详情可以见论文和demo中的可视化结果比较。

主实验结果

在正文中,我们对网络结构、DCT设计、频谱频段选择、网络结构、采样步数、噪声建模等进行了精细的消融验证。同时,由于以往研究的codebase计算效率太低,我们重新优化了评估代码并开源(加速上千倍),为后续研究者提供便利。

为了探究模型的泛化性能,我们还做了在H3.6M数据训练,在AMASS上做zero-shot预测实验的研究,效果也特别好。

AMASS上的zero-shot预测实验

这是我们基于对动作生成任务全新理解,在动作预测问题上的一个探索性工作。我们的大量实验表明这种框架的扩展性非常好,还有很大的扩展空间,欢迎大家关注我们的后续工作。

该研究是我和原来本科的同学多次交流获得的灵感,在此也感谢一下母校。衷心感谢所有合作者,特别是Xiaobo全方位的指导,让我获益匪浅(^_^)。P.S.: 该工作做完刚刚挂出arxiv的时候就有很多工业界的同行发邮件来交流,甚至希望部署到他们的产品线中,给予了我们极大的鼓舞,在此也向他们表示感谢。

联系:thu DOT lhchen AT gmail DOT com

参考

  1. ^https://github.com/LinghaoChan/HumanMAC

  2. ^https://www.youtube.com/watch?v=vfde9GdUHBs

  3. ^https://lhchen.top/Human-MAC/

  4. ^https://github.com/LinghaoChan/HumanMAC/blob/main/doc-CN

  5. ^Sebastian Starke, Ian Mason, and Taku Komura. Deepphase: Periodic autoencoders for learning motion phase manifolds. ACM Transactions on Graphics (TOG), 41(4):1–13, 2022. 14.

  6. ^Wei Mao, Miaomiao Liu, Mathieu Salzmann, and Hongdong Li. Learning trajectory dependencies for human motion pre- diction. In ICCV, pages 9489–9497, 2019.


点击进入—>【计算机视觉】微信交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVIS【最新】恐引中国反弹!加军舰罕见大动作预告穿越台湾海峡ICCV 2023 | TUM&谷歌提出md4all:挑战性条件下的单目深度估计ICCV 2023 | 新注意力!清华黄高团队提出FLatten Transformer视觉新主干【美国春天母亲节5原创钢琴三部曲 “粉衣蓝裙”不表白庆六一艺术节】《美丽夏天温柔的雨》&《爱的童话》&《雷雨之后》九 战场来信ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测如何解锁大模型时代AI研究开发新范式 ?尽在2023WAIC AI开发者领袖论坛ICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOP无需标注海量数据,目标检测新范式OVD让多模态AGI又前进一步如何重构医健投资新“技”元?天士力资本提出技术投资新范式水调歌头 五月二首ICCV 2023 | 刷新多项记录!武大&快手提出DVIS:解耦视频实例分割框架原创随笔《闲话龙井村》年轻人应当去下乡找工作【美国春天印象5年飞兔藏龙卧虎跨年音乐会】《岳阳楼记先天下之忧而忧》范仲淹 &《陋室铭山不在高有仙则名,水不在深有龙则灵ICCV 2023 | HoP:即插即用,重塑3D检测时序利用新范式蛋白质侧链预测新方法DiffPack:扩散模型也能精准预测侧链构象!Holiday Special 七月上 望七月 ~~ poem & song by 盈盈 & AP数字100:2023中国消费趋势洞察-新范式 新机会 新体验巨量算数:2023抖音健康生活新范式白皮书ICCV 2023 Oral | HumanSD:更可控更高效的人体图像生成模型ICCV 2023 | 北大提出MotionBERT:人体运动表征学习的统一视角港中大和商汤提出HPS v2:为文本生成图像模型提供更可靠的评价指标ICCV 2023 | HumanSD: 更可控更高效的人体图像生成模型地中海邮轮行之二ICCV 2023 | 中科大&微软提出AFFNet:轻量级视觉新主干【美国春天母亲节5年回顾原创三部曲六一钢琴节】我为柳宗元《小石潭记》作曲 &《让我们唱在夏天里》&《卖火柴的小女孩》真人CVPR上的新顶流:BEV自动驾驶感知新范式ICCV 2023 | 更快更强!北理工&旷视提出StreamPETR:纯视觉感知与激光雷达终有一战之力!【美国风流才女春天传奇夏至父亲端午节5年现场舞台风格流派三部曲原创演唱会】励志春天跑步歌《阳光下奔跑》&《白色衣裙女孩》ICCV 2023|目标检测新突破!AlignDet:支持各类检测器完全自监督预训练的框架仅使用解码器实现语音翻译,字节跳动提出基于LLM的新范式PolyVoiceICCV 2023 | 复旦&微软提出ILA:基于可学习隐式对齐的时序建模方法高西庆:新范式影响八大领域,需塑造一流营商环境|年度对话2023ICCV 2023 | 南开大学提出LSKNet:遥感旋转目标检测新SOTAICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测​ICCV 2023 | 华科大提出NVDS:即插即用的视频深度预测框架【广发策略戴康团队】高股息:新范式下的长牛策略——“新投资范式”系列报告三
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。