Redian新闻
>
一个摄像头就能让虚拟人唱跳rap,抖音即可玩

一个摄像头就能让虚拟人唱跳rap,抖音即可玩

公众号新闻
允中 发自 凹非寺
量子位 | 公众号 QbitAI

全身动作捕捉,现在无需昂贵的动捕设备,只要一个摄像头就能轻松实现。

并且就在抖音上,人人都能上手体验。

上面这段虚拟数字形象跳舞的视频采用了抖音直播伴侣功能背后的全身驱动技术,主播仅需要单个普通摄像头并开始跳舞,就可以实时、精准地驱动虚拟形象。

相较于以往的轻量化动作捕捉,这项来自字节跳动智能创作团队的全身驱动技术具有高真实性,可以体现空间的距离感和地面感。

并且具有更高的鲁棒性,能够在复杂的环境、穿戴等场景下实现良好的结果。

同时,还具备更高的还原性,人物的姿态、手势和动作的姿态、速度都能更加准确地还原。

值得一提的是,普通的惯性动捕手套在一定时间后就会产生漂移损耗,无法支持长时间的直播,而全身驱动技术则可以有效规避这一问题,能够更好地适应直播场景。

据介绍,全身驱动技术的技术方案包含了数据、估计、修正以及驱动四个步骤,具体的实现方案如下:

全身驱动技术方案全流程

构建高精度3D数据供应链

技术团队使用了混合3D数据构建方式,其来源包括自建多目工装动捕系统、2D数据、伪标签3D数据,基于此,团队构建了包含800万以上高精3D标签的数据集。

为了获取接近业务场景的高精度3D人体数据,团队搭建了一套完整的基于多目摄像头的无标记物视觉动捕系统,并基于自研的人体重建算法,实现了对人体的位置,姿态和体型的准确估计。

尽管在多数情况下,自动化的重建算法能够给出精度满足要求的重建结果,但对于一些遮挡严重,运动过快导致模糊的样本,仍需要通过人工筛选修正的方式进行数据清洗。通过搭建3D数据筛选标注系统,可以实现高效的半自动化数据生产,并通过将人工审核后的样本用于相关模型的训练,持续优化数据产线相关模型的性能,最终实现数据质量的自举式提升。

高精度3D数据构建流程

高还原性与高鲁棒性的全身估计模型

据介绍,通过上述步骤,团队积累了样本量高达近千万的大规模数据集。

在此基础上,团队训练了一个基础特征表示底座进行3D-Aware的共享特征抽取,基于共享特征构建了姿态估计分支、相机估计分支、Root点估计分支。

其中,姿态估计分支负责为表演者的关节点进行局部3D坐标估计,相机估计分支以及Root点估计分支为当前表演者的全局位置进行估计。

基于多分枝的估计模块结合积累的大量自有数据,人体估计模型可以在较少的计算量下取得高还原性与高鲁棒性的结果。

另外,针对全身场景下的手部姿态估计,团队统计了手腕关节旋转的先验分布辅助模型训练,保证模型输出符合人体结构约束;设计了手腕关节的时序模型,保证手腕姿态的稳定性;对关键点预测进行概率建模从而预测模型输出的置信度进行难样本过滤;将以上优化点与大量的自有手部数据结合,智能创作团队的手部姿态算法模型在复杂遮挡模糊场景下结果仍可有不错的表现。

以下为人体在复杂遮挡服饰场景下的优化对比。左边为原始预测结果,右边为异常遮挡优化结果。

再来看看手腕在旋转动作下的优化对比。左边为原始预测结果,右边为手部姿态还原性&鲁棒性优化结果。

时空关联建模强化鲁棒性

在身体估计模块获取了基本的3D关节点信息后,技术团队训练了时序完整性模块对原始结果进行修正。

在时序完整性模块中,引入关节点在时序上的关联关系以及同时刻关节点的空间关联关系,同时引入了关节点位置感知模块,使得具体关节点位置可以被显式编码为高维向量加入训练。

在时序建模的基础上,团队同时设计了异常检测模块对分布外的姿态结果进行过滤修正。时空关联建模的设计保证了人体估计算法可以进一步获得高鲁棒性的驱动信号。

人体在复杂遮挡服饰场景下的优化对比(左为原始预测结果,右为时空关联建模修正后结果):

自研算法,实现高真实感驱动

在通过一些算法模型计算后,团队获得了精准且可靠的人体关节点输出,但这距离驱动一个活灵活现的虚拟人仍然还有最后几个步骤,需要通过IK算法获取特定虚拟角色的旋转角以对其完成驱动。

对此,团队自研了EasyIK算法,其可以对大臂小臂、大腿小腿等容易出现自旋错误的关节提供合理姿态。

同时,为了保证驱动虚拟角色的真实感,团队研发了接地算法,对驱动虚拟角色的地面进行估计,并为单脚以及双脚姿态在地面上自然姿态以及移动的距离进行估计。

EasyIK以及接地算法的引入使得虚拟人驱动可以获得更好的真实感。

足部稳定性优化对比(左为原始预测结果,右为高真实感驱动效果):

随着虚拟数字人技术的发展和虚拟偶像的兴起,虚拟数字人在游戏、虚拟社交,在线健身、在线教育、虚拟主播等领域都将有更加广阔的应用空间。更加实时、轻量化、低成本的动作捕捉技术也将成为行业的趋势。

全身驱动技术方案能大大降低了真人驱动虚拟数字人的应用门槛,助力打造更加趣味、沉浸式的交互体验。

关于字节跳动智能创作团队:

智能创作团队通过建设领先的计算机视觉、音视频编辑、特效处理等技术,支持抖音、剪映、头条等公司内众多产品线;同时通过火山引擎为外部ToB合作伙伴提供业界前沿的智能创作能力与行业解决方案。

体验抖音直播伴侣,可访问:https://streamingtool.douyin.com/

*本文系量子位获授权刊载,观点仅为作者所有。


—  —

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
虚拟人IP研发商「山漫文化」完成数百万元种子轮融资,将为经典IP实现焕活与多元化变现|早起看早期有人收入缩水90%?这个职业薪资集体大降!未来或遇到AI虚拟人强力竞争...在街头装一万个摄像头,也许会让治安更好,但不一定能帮助城市复兴会玩乐器会唱跳,这些娃太潮了!专业器乐街舞夏令营早鸟价倒计时古良吉吉推出虚拟人物GIGI;111skin独家合作Ushopal;肯德基x时代少年团发主题短片... | 刀法品牌热讯影像升级,曝小米13 Ultra后置四颗5000万像素摄像头蕾哈娜中场秀被批“史上最差”…网友:怀着二胎一边唱跳一边补妆了,还想怎样?满街都是摄像机!芝新规:公车、路灯都装摄像头 违停就罚单用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型青春未散场 仍是好时光和骑手一起送了5份抖音外卖后发现,抖音要抢美团的生意还很难男子刚领证7天被妻子打进医院;韩国申报的文化遗产来自日本;男子花35万找人跟妻子结婚;抖音即将上线外卖服务......|酷玩日爆狗狗总是跳墙离家出走,于是主人偷偷给它装了一个摄像机…刚刚!澳洲政府宣布禁止抖音+换掉中国造摄像头,紧跟美国!但结果,政府却无奈了...下一代听歌识曲技术探索;银河音效技术实践;歌唱评价与内容理解实践;音乐驱动虚拟人橡树岭的秘密“少年李宗盛”一开口,又又又把人唱哭了:过年回家真的太不易......小米新专利:一个摄像模组实现多种拍摄需求唱跳组合Star Of Royvl红遍温哥华!横空出世的秘诀是…虚拟人的圈子为何如此重女轻男?视频丨唱跳组合Star Of Royvl红遍温哥华!这群孩子为何如此优秀?可怕|女住客发现加拿大Airbnb内隐藏多个摄像头!正对浴室直播,全世界坏人品位都一样?降薪高达90%?AI虚拟人火了,冲上热搜,特朗普回应谁炸了“北溪”管道,网友评论亮了三年来新冠主要症状的改变2022年虚拟人应用与实践报告(附下载)人脚一双却不撞款,一百出头就能拿下的梦中情鞋!全家都能穿!本地生活,抖音的下一个战场何超莲窦骁巴厘岛大婚,再多人唱衰,幸福是藏不住的《人民》就是全世界受苦的人!最新,斯坦福大学的25个AI虚拟人“活得”怎么样了?AI洪潮正漫过第二道堤坝……硬核观察 #970 AI 生成了 “活” 在虚拟世界的 25 个虚拟人艾媒咨询:2023年中国虚拟人产业发展与商业趋势研究报告逛圣诞集市 | 柏林发展恐怖如斯!ChatGPT不仅可用来做科学研究,还能让虚拟的数字社会不断学习、演化ChatGPT 的真相:虚拟人和母体,以及强泛化的秘密
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。