Redian新闻
>
李飞飞团队新作:AI透视眼!渲染遮挡人体有了新突破!

李飞飞团队新作:AI透视眼!渲染遮挡人体有了新突破!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【多模态学习】微信交流群

扫码加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!发论文搞科研,强烈推荐!

转载自:机器之心 | 编辑:大盘鸡、小舟

在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!

即使遮挡,也能渲染出高保真的 3D 人体。

AR/VR 、电影和医疗等领域都在广泛地应用视频渲染人类形象。由于单目摄像头的视频获取较为容易,因此从单目摄像头中渲染人体一直是研究的主要方式。Vid2Avatar、MonoHuman  和 NeuMan  等方法都取得了令人瞩目的成绩。尽管只有一个摄像头视角,这些方法仍能从新的视角准确地渲染人体。
不过,大多数现有的方法在渲染人体时都是针对较为理想的实验场景进行设计的。在这些场景中,障碍物几乎不存在,人的各个身体部分在每一帧中也都能全部展示出来。可这与现实场景大为不同。现实场景中常有多个障碍物,人体也会在移动过程中被障碍物遮挡。
大多数的神经渲染方法在处理现实世界的场景时都会因为遮挡而困难重重,其中一大原因就是缺乏监督。实际场景往往无法提供有关人体外观、形状和姿态的真实监督数据,因此模型需要根据现有的少量证据来推断其他信息,而这十分具有挑战性,尤其是大部分人体被遮挡的情况。
由于许多神经方法采用的基于点的渲染方案,当一个被遮挡和一个未被遮挡时,两个非常接近的坐标会在渲染输出上产生巨大差异。因此,那些未适应被遮挡场景的方法在遇到遮挡时经常会显示出不完整的人体,或者渲染出漂浮物和其他视觉上的错误。
最近,著名人工智能教授李飞飞在 X 上发布了有关 3D 人体渲染工作的新进展 —— 一种名为 Wild2Avatar 的新模型,该模型即使在有遮挡的情况下仍然能够完整、高保真地渲染人体。

Wild2Avatar 是一种适用于有遮挡的野外单目视频的神经渲染方法。研究团队提出了遮挡感知场景参数化,将场景解耦为三个部分 —— 遮挡、人体和背景,分别渲染这三个部分,并设计了新颖的优化目标。

  • 论文地址:https://arxiv.org/pdf/2401.00431
  • 项目地址:https://cs.stanford.edu/~xtiange/projects/wild2avatar/

方法介绍

Wild2Avatar 可以为带有遮挡的野外单目视频渲染具有完整几何形状和高保真外观的 3D 人体。Wild2Avatar 模型的整体架构如下图 2 所示:

具体来说,Wild2Avatar 将遮挡物、人体和背景建模为三个独立的神经场,无论遮挡物如何,都能对人体进行清晰的三维重建。为此,该研究采用场景自分解技术,在倒球参数化(inverted sphere parametrization)的基础上,提出了遮挡感知场景参数化。

除了倒球参数化定义的第一个球外,该研究还引入了第二个内球,并将从摄像机到内球边缘的区域定义为遮挡区域。通过单独渲染这一区域,Wild2Avatar 成功将遮挡与场景的其他部分分离开来。
此外,为了确保高保真和完整地渲染人体,该研究提出通过像素光度损失、场景分解损失、遮挡解耦损失和几何完整性损失的组合来汇总三种渲染。

实验及结果
数据集
OcMotion:该数据集由人体与各种物体接触的室内场景组成,同时被这些物体部分遮挡。研究者从该数据集的 48 个视频中选用了 5 个,它们展示了不同程度的遮挡。他们从每个视频中只抽取了 100 帧来训练模型,并使用数据集提供的相机矩阵、人体姿态和 SMPL 参数来初始化优化过程。帧内的二进制人体分割掩码是通过「分割一切 (SAM)」获得的。
野外视频:研究者对两段真实世界的视频进行了额外的实验,其中一段是从 YouTube 下载的,另一段是研究团队使用手机摄像头拍摄的。他们从这两段视频中抽取了 150 帧进行训练,并使用 SLAHMR 获取了摄像机矩阵、人体姿势和 SMPL 参数。由于没有提供真实姿态,因此对这些视频的评估也表明了各种方法对不准确估计的稳健性。
被遮挡单目摄像头视频上的结果
图 5 比较了 Vid2Avatar 和 Wild2Avatar 在两个数据集上的渲染结果。

在表 1 中,研究者报告了两种方法的量化结果,并观察到二者在可见部分的渲染性能不相上下。不过,需要注意的是,Wild2Avatar 在身体几何形状和遮挡部分的渲染质量上始终优于 Vid2Avatar。

与 OccNeRF 的比较
研究者将 Wild2Avatar 与最近推出的遮挡人体渲染软件 OccNeRF 进行比较。比较结果如图 6 所示。

为了进行公平比较,他们分别在 500 帧和 100 帧图像上对 OccNeRF 进行了训练。由于没有隐式 SDF 表征,OccNeRF 存在浮游物和伪影等常见缺陷。虽然 OccNeRF 也能恢复被遮挡的人体部位,但人体通常会意外扭曲,导致渲染质量较低。
场景分解的可视化
Wild2Avatar 以组合的方式渲染了三个场景部分。人和背景 / 遮挡物分别在两个不同的神经场中建模。图 7 展示了这三个场景部分的单独渲染图。需要注意的是,由于这项工作只专注于人体渲染,因此背景和遮挡物的无伪影渲染不在这项工作的讨论范围内。

消融实验
尽管 Wild2Avatar 仍能恢复被遮挡的外观,但在没有提出的参数化的情况下,渲染结果中会出现许多伪影,见图 8 第一行。
如果不采用建议的损失函数,则无法完全恢复被遮挡的区域,见图 8 第二行。
提出的损失函数作为一个正则化器,强制人体几何形态与 SMPL 网格先验保持一致,这防止了错误姿态的渲染,见图 8 第三行。

更多详细内容,请阅读原论文。

在CVer微信公众号后台回复:论文,即可下载论文pdf和代码链接!快学起来!

CVPR / ICCV 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

多模态学习交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-多模态学习 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如多模态学习+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
李飞飞、吴恩达对谈:这一次,AI 冬天不会到来元英进院士团队新作:通过酶工程让氯酶具有氟酶活性,有望拓展有机氟化合物的生物合成途径黑皮书封面人物|塞缪尔·罗斯:突破,突破,突破!马斯克忽然宣布!人脑植入芯片最新突破!李飞飞团队新作:脑控机器人做家务,让脑机接口具备少样本学习能力视频生成新突破!字节跳动提出PixelDance:轻松呈现复杂动作与炫酷特效引爆“陆家嘴毒地案”的苯并芘,对人体有害吗?我爱李飞飞团队实现“隔空建模”,透过遮挡物还原完整3D人体模型动物油更健康?浸出油对人体有害?健康吃油常识→李飞飞团队新作:AI透视眼,穿越障碍看清你,渲染遮挡人体有新突破了大规模视觉模型新突破!70亿参数!Apple新作AIM:自回归图像模型BIG新作:“仙人掌”公寓已开放入住Google开放域问答系统新突破!多粒度评估提升近20个点GauHuman开源:基于Gaussian Splatting,高质量3D人体快速重建和实时渲染框架「人车交互」新突破!普渡大学发布Talk2Drive框架:可学习/定制的「指令识别」系统底层视觉大模型!董超团队新作SUPIR:扩散生成先验的图像复原一路走来(三十二)红色日记 大喜事 5.24-31陈丹琦团队新作:数据量砍95%,大模型性能更强了!Less is More新加坡事务所Avalon Collective 新作:苏州四季酒店※ ※ 纯真年代 ※ ※ 纪念夏时制结束,终于可以回到日出而作的纯真年代了:DDDD从洗碗工到斯坦福教授,“AI女神”李飞飞谈逆袭:找到自己的“北极星”最重要李飞飞新书《我看到的世界》正式发售!忧心斯坦福没有训练ChatGPT算力,自称不是AI毁灭派广州市委书记宣布要提高政治站位,推动南沙取得新突破!广东同日出台两个重磅法规,聚焦南沙开放发展、制造强省建设希腊阿索斯山(Mount Athos),大山语言专家独家解答:肺癌筛查新突破!一管体液就能知道是否患癌或复发降脂药新突破!1期研究显示,全球首个口服降Lp(a)药物可显著降低Lp(a)水平牙龈修复新突破!这家企业历时6年,拿下首个3类证李飞飞、吴恩达开年对话:AI 寒冬、2024新突破、智能体、企业AIGPU短缺、Agent兴起、虚假信息扩散,李飞飞&斯坦福HAI对24年的AI预测GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类意念操纵机器人成真!李飞飞团队打造,做家务玩游戏样样能行台积电参与研究的相变存储,新突破!洗手太勤,反而对人体有害?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。