Redian新闻
>
眼见不一定为实,AI苦练骗人术​

眼见不一定为实,AI苦练骗人术​

公众号新闻

"

AI帮你在视频会议中摸鱼,现在AI能够骗过人眼了?



编辑| Light

出品 | 科技智谷



是否想象过上课或开会的时候,找到一个替身替自己坐在那里听课、开会?想必很多人都不止一次想过这一画面,而今这一幻想就要成真了。


近期,海外一家创业公司开启了一项新业务引起了不少人的关注,初创企业 EmbodyMe 宣布开启全新服务xpression camera Voice2Face,为客户提供网络会议中的虚拟人像。据悉,这一应用会提供与参会者毫无二致的虚拟形象,通过 AI 系统的加持,还能实现表情、动作与发言者的互动,还可以自定义角色服装、发型等。EmbodyMe社的高管吉田一星表示,xpression camera Voice2Face专门针对网会疲劳现象开发,可以切实解决冗长网会中酱油角色们的疲劳和忧伤。

01

虚拟人崛起

EmbodyMe的xpression camera Voice2Face功能从本质上来说属于虚拟数字人技术,与此前新华社的虚拟主播、某银行的虚拟员工同宗同源。

虚拟数字人的广义定义为数字化外形的虚拟人物,具有“虚拟”(存在于非物理世界中)+“数字”(由计算机图形学、图形染、动作捕捉、深度学习、语音合成等计算 机手段创造及使用)+“人”(具有多重人类特征,如外貌、人类表演/交互能力等)的综合产物,打破物理界限提供拟人服务与体验是其核心价值。

其中“人”(外形看起来像)是其中核心的因素,高度拟人化(行为看起来像)为用户带来的亲切感、参与感、互动感与沉浸感是多数消费者的核心使用动力。 能否提供足够自然逼真的相处体验,是虚拟数字人在各个场景中取代真人重要标准。

按应用场景来分,虚拟数字人可虚拟偶像、虚拟分身、虚拟助手、多模态助手等等,其中虚拟偶像较易实现,一般通过计算机以游戏引擎制作并输入预定的语音与动作即可,例如初音未来、洛天依等等;而虚拟分身则一般需要扫描捕捉人体特征与动作,再在计算机中实时生成形象;最后就是虚拟助手与多模态助手了,这两者基本上都属于自动化的范畴了,无论是在形象上还是在交互上,有更为“以假乱真”。

本次EmbodyMe的xpression camera Voice2Face功能既是虚拟分身又是虚拟助手之间,说它是虚拟分身是因为xpression camera Voice2Face能够满足个人在虚拟世界中为自己创造独特形象的身份需求,又说它是虚拟助手则是因为xpression camera Voice2Face可以在对交互要求相对简单的场景下应用替代真人,比如代替你开无效的视频会议。

不过当前所有虚拟数字人都存在一个共同的问题——呆。数字虚拟人最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)、NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技术的共同影响,所以xpression camera Voice2Face即便在AI技术的加持下看起来比较自然,但稍微问个问题xpression camera Voice2Face就原形毕露了。

02

AI是关键

除了前面提到的能够帮助人们在无效视频会议(仅支持ZOOM)中摸鱼外,通过Xpression Camera的官网我们还发现,Xpression Camera还支持在 Twitch 上直播或在创建 YouTube 视频,Xpression Camera能够实现以上功能背后则离不开一个名为Voice2Face AI技术。

据悉,Voice2Face技术是FACEGOOD(量子动力)在2022年年初开源的一项关于语音驱动三维人脸的项目(https://github.com/FACEGOOD/FACEGOOD-Audio2Face),该技术可以将语音实时转换成表情blendshape动画。

值得注意的是,FACEGOOD主要完成Voice2Face部分,ASR,TTS由思必驰智能机器人完成。如果你想用自己的声音,或者第三方的ASR,TTS可以自行进行替换。当然FACEGOOD Audio2Face部分也可根据自己的喜好进行重新训练,比如你想用自己的声音或其它类型的声音,或者不同于FACEGOOD使用的模型绑定作为驱动数据,都可以根据下面提到的流程完成自己专属的动画驱动算法模型训练。

Voice2Face的具体工作原理如下:第一阶段,数据采集制作。这里主要包含两种数据,分别是声音数据和声音对应的动画数据。声音数据主要是录制中文字母表的发音,以及一些特殊的爆破音,包含尽可能多中发音的文本。而动画数据就是,在maya中导入录制的声音数据后,根据自己的绑定做出符合模型面部特征的对应发音的动画;第二阶段,主要是通过LPC对声音数据做处理,将声音数据分割成与动画对应的帧数据,及maya动画帧数据的导出;第三阶段,将处理之后的数据作为神经网络的输入,然后进行训练直到loss函数收敛既可。


其实本质上Voice2Face属于Audio2Mesh路线,即语音直接预测mesh序列信息除此之外等效的还有一种,Audio2ExpressionCoefficient,语音预测表情系数或者blendshape系数,最后在进行线性相加合成mesh序列。但无论使用何种方法,能够根据语音实时生成相应的表情并赋予给虚拟形象,以此来实现视频会议中的“摸鱼”,背后都离不开AI的功劳,未来随着AI技术的进一步发展,AI“欺骗”人类的那天越来越近了。


END



欢迎全国各地以及境外科技、消费、地产、医疗、农业、能源、环保、教育、文化、投行、基金、券商、信托、银行、保险、租赁、投资等产业及金融精英,寻找优质项目、资金及获得全球顶级金融圈层请联系Cathy,或者在菜单中点击【SOHO服务】——>【服务登记】,留下您的需求我们将竭诚为您服务。




「科技智谷」
新型科创产业服务平台,原硅谷密探,科技转化第一站,科学家CEO的摇篮。


「青年投资家俱乐部」
青年投资家俱乐部汇聚来自金融机构、政府机构、上市公司、产业公司、三方服务的数万名专家资源。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
密西沙加精选房源:眼见为实的华丽升级豪宅!5房4卫二楼景观一绝女交警太飒了!为骑上500多斤大摩托,到健身房苦练力量“100%羊绒” “100%精品山羊绒”,居然都是商家骗人的把戏?!老教师感叹:同样上网课,不一样的家长,不一样的结局!(再忙也要看看)欧盟27国意见不一,马克龙:希望马上实施!欧盟27国意见不一,马克龙:希望马上实施老人鞋是骗人产品么?这么买鞋才靠谱眼见男友残忍杀害6人无动于衷芝加哥女子被判25年冷血情侣!眼见男友残忍杀害6人无动于衷 芝加哥女子被判25年不一样的国产,不一样的钱江摩托北京线下相亲局:“眼见为实”的挑选与被挑选真相了:当妈胸不一定变大,但心一定变宽广疫情三年:同样上网课,不一样的家长,不一样的结局…小儿腹泻更新有哪些农业上的事实,没有一定农学知识的人不会相信?冲马桶不盖盖子有多危险?一段视频带你亲眼见证!你一定见过这树,却不一定叫得出名字资本家只用鞍钢宪法中部分内容17岁孤独症少年苦练钢琴冲上热搜,网友:他在发光!老教师感叹:同样上网课,不一样的家长,不一样的结局!有钱人和我们想的不一样,到底哪里不一样?讲谈社经典巨制:看见不一样的中国、日本与世界一个人的徒步,900公里法国之路+世界尽头:D44~最好的生日礼物虽在异乡非异客 且把他乡作故乡 上遇见不一样的万茜丨赏色前中情局特工临终前爆料:51区是真的,我亲眼见过外星人别TM相信这些网上兼职了,都是骗人的!!饭局识人术,很准的!别再相信这些网上兼职,都是骗人的!面试官问:和上司意见不一致,你如何解决?俄罗斯赢着赢着就输了,信息差骗人有多可怕前中情局特工临终前爆料:51区是真的 我亲眼见过外星人苦练基本功:12个商业模型,助你走出冬天亲眼见证北欧医疗,免费的东西,到底香不香?见到真贵族!清宫剧都弱爆了(图)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。