眼见不一定为实,AI苦练骗人术公众号新闻2022-11-01 01:11"AI帮你在视频会议中摸鱼,现在AI能够骗过人眼了?编辑| Light出品 | 科技智谷是否想象过上课或开会的时候,找到一个替身替自己坐在那里听课、开会?想必很多人都不止一次想过这一画面,而今这一幻想就要成真了。近期,海外一家创业公司开启了一项新业务引起了不少人的关注,初创企业 EmbodyMe 宣布开启全新服务xpression camera Voice2Face,为客户提供网络会议中的虚拟人像。据悉,这一应用会提供与参会者毫无二致的虚拟形象,通过 AI 系统的加持,还能实现表情、动作与发言者的互动,还可以自定义角色服装、发型等。EmbodyMe社的高管吉田一星表示,xpression camera Voice2Face专门针对网会疲劳现象开发,可以切实解决冗长网会中酱油角色们的疲劳和忧伤。01虚拟人崛起EmbodyMe的xpression camera Voice2Face功能从本质上来说属于虚拟数字人技术,与此前新华社的虚拟主播、某银行的虚拟员工同宗同源。虚拟数字人的广义定义为数字化外形的虚拟人物,具有“虚拟”(存在于非物理世界中)+“数字”(由计算机图形学、图形染、动作捕捉、深度学习、语音合成等计算 机手段创造及使用)+“人”(具有多重人类特征,如外貌、人类表演/交互能力等)的综合产物,打破物理界限提供拟人服务与体验是其核心价值。其中“人”(外形看起来像)是其中核心的因素,高度拟人化(行为看起来像)为用户带来的亲切感、参与感、互动感与沉浸感是多数消费者的核心使用动力。 能否提供足够自然逼真的相处体验,是虚拟数字人在各个场景中取代真人重要标准。按应用场景来分,虚拟数字人可虚拟偶像、虚拟分身、虚拟助手、多模态助手等等,其中虚拟偶像较易实现,一般通过计算机以游戏引擎制作并输入预定的语音与动作即可,例如初音未来、洛天依等等;而虚拟分身则一般需要扫描捕捉人体特征与动作,再在计算机中实时生成形象;最后就是虚拟助手与多模态助手了,这两者基本上都属于自动化的范畴了,无论是在形象上还是在交互上,有更为“以假乱真”。本次EmbodyMe的xpression camera Voice2Face功能既是虚拟分身又是虚拟助手之间,说它是虚拟分身是因为xpression camera Voice2Face能够满足个人在虚拟世界中为自己创造独特形象的身份需求,又说它是虚拟助手则是因为xpression camera Voice2Face可以在对交互要求相对简单的场景下应用替代真人,比如代替你开无效的视频会议。不过当前所有虚拟数字人都存在一个共同的问题——呆。数字虚拟人最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)、NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技术的共同影响,所以xpression camera Voice2Face即便在AI技术的加持下看起来比较自然,但稍微问个问题xpression camera Voice2Face就原形毕露了。02AI是关键除了前面提到的能够帮助人们在无效视频会议(仅支持ZOOM)中摸鱼外,通过Xpression Camera的官网我们还发现,Xpression Camera还支持在 Twitch 上直播或在创建 YouTube 视频,Xpression Camera能够实现以上功能背后则离不开一个名为Voice2Face AI技术。据悉,Voice2Face技术是FACEGOOD(量子动力)在2022年年初开源的一项关于语音驱动三维人脸的项目(https://github.com/FACEGOOD/FACEGOOD-Audio2Face),该技术可以将语音实时转换成表情blendshape动画。值得注意的是,FACEGOOD主要完成Voice2Face部分,ASR,TTS由思必驰智能机器人完成。如果你想用自己的声音,或者第三方的ASR,TTS可以自行进行替换。当然FACEGOOD Audio2Face部分也可根据自己的喜好进行重新训练,比如你想用自己的声音或其它类型的声音,或者不同于FACEGOOD使用的模型绑定作为驱动数据,都可以根据下面提到的流程完成自己专属的动画驱动算法模型训练。Voice2Face的具体工作原理如下:第一阶段,数据采集制作。这里主要包含两种数据,分别是声音数据和声音对应的动画数据。声音数据主要是录制中文字母表的发音,以及一些特殊的爆破音,包含尽可能多中发音的文本。而动画数据就是,在maya中导入录制的声音数据后,根据自己的绑定做出符合模型面部特征的对应发音的动画;第二阶段,主要是通过LPC对声音数据做处理,将声音数据分割成与动画对应的帧数据,及maya动画帧数据的导出;第三阶段,将处理之后的数据作为神经网络的输入,然后进行训练直到loss函数收敛既可。其实本质上Voice2Face属于Audio2Mesh路线,即语音直接预测mesh序列信息。除此之外等效的还有一种,Audio2ExpressionCoefficient,语音预测表情系数或者blendshape系数,最后在进行线性相加合成mesh序列。但无论使用何种方法,能够根据语音实时生成相应的表情并赋予给虚拟形象,以此来实现视频会议中的“摸鱼”,背后都离不开AI的功劳,未来随着AI技术的进一步发展,AI“欺骗”人类的那天越来越近了。END欢迎全国各地以及境外科技、消费、地产、医疗、农业、能源、环保、教育、文化、投行、基金、券商、信托、银行、保险、租赁、投资等产业及金融精英,寻找优质项目、资金及获得全球顶级金融圈层请联系Cathy,或者在菜单中点击【SOHO服务】——>【服务登记】,留下您的需求我们将竭诚为您服务。「科技智谷」新型科创产业服务平台,原硅谷密探,科技转化第一站,科学家CEO的摇篮。「青年投资家俱乐部」青年投资家俱乐部汇聚来自金融机构、政府机构、上市公司、产业公司、三方服务的数万名专家资源。微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章