今天这个「主播」,有点不一样!
新智元报道
新智元报道
编辑:好困
【新智元导读】万物皆可播,人人皆主播。不过现在直播间里和你对话的可不一定是个「真人」了哦。
请看上面这两位长相差不多的主播,像不像是一对双胞胎?
但实际上,她们是「同一个人」!
至于原因,这里先卖个关子。
半夜还要直播,太「费人」了吧
我们先说说直播带货这件事。
顾名思义,重点就是为了「带货」。
但每次都要卡着点进去,一不小心就会错过。
一来二去,可能也就不想再看了。
商家们似乎也发现了这个问题,于是虚拟带货主播就应运而生了。
7x24小时不间断,啥时候点进去都可以。
然而问题又来了,想要获得好的表现,基本只能靠「真人驱动」,原理和我们熟知的「虚拟偶像」差不太多。
屏幕中看起来好像是一位美少女坐在桌子前面带货,实际上是一位演员置身于偌大的「动捕房」里,穿戴一身繁琐的设备来实现表情和动作的「复刻」。除此之外,还需要演员自己进行配音。
这要是来个「007」工作制……
而另一种方法倒是实现了「全自动」,但是目前多数还停留在自说自话的阶段。
比如你想咨询一号宝贝的信息,但是人家正按照设定的程序跳舞,还完全没有要停下来的意思。
而造成现在这种「食之无味,弃之可惜」的状况,和定制虚拟人形象、维护或租用动捕设备等环节的费用太高有直接联系。
要是能有一个价格便宜,操作起来也简单的系统就好了。
直播「双胞胎」大揭秘!
说到这里,你还记得最开始提到的那对「双胞胎」吗?
她的「孪生」虚拟人就是借助科大讯飞的AI虚拟人交互平台上训练出来的,而且只需采集0.5小时的视频就可以了。
如果你仔细观察下面这张动图的话,甚至可以从虚拟人的唇语中读出她说的是:「比个小爱心」。
如此逼真的实现靠的就是讯飞基于大数据多模态预训练的口唇驱动框架,它在保证高真实度的口唇合成效果的同时,可以实现不同语种以及不同方言的口唇驱动。
此外,在表情和动作的驱动方面,基于情感的语义空间可以实现从语音到表情动作的上的情感表现,也就是让情感贯穿于虚拟人的交互过程之中。
虽说叫「口唇驱动」,但实际上是利用AI对整个人脸区域进行编辑的,除了口型和发音是一一对应的以外,其他部位的肌肉以及下巴也是要同步跟着移动的。
如果觉得用视频训练太麻烦了的话,还可以用科大讯飞的融合人技术像游戏里那样捏一个新的出来。
这套系统可根据不同应用场景和审美需求,支持对眉眼、鼻子、嘴巴进行高自由度编辑和融合,并供不同性别、职业、服装等丰富的融合人脸资源。
仅需编辑单张人脸即可实现完整视频的驱动,其中采用可控编辑人脸区域创造的全新虚拟人脸。
除了这种2D真人以外,科大讯飞在3D虚拟形象的构建上也结合了基于单张照片的人脸重建和表情迁移,并以此实现了3D可驱动个性化虚拟形象的快速生成,而且未来还将向全身扩展。
现在,脸已经「捏」好了,接下来要做的就是「教」虚拟人说话了。
这对于深耕语音技术23年讯飞来说,可以称得上是「老本行」。
想「复刻」自己的声音?小case!而且还能顺便让虚拟人用你的声音说方言,讲外语。
效果的话,来感受一段东北老铁版的「虚拟冰冰」吧!
当然了,英语也同样不在话下。
而这只需要上传一段10-15分钟的录音数据到讯飞开放平台,机器就可以快速学习并生成独一无二的语音合成音库。
相较于以往整个训练和调优过程需要花费数月时间的标准流程,声音复刻让声音快速定制应用成为现实。
在到了这一步,我们已经搞定了虚拟人的形象和声音,那么之后要解决的问题就是怎么用虚拟人进行直播了。
虚拟人如何才能吸粉?
目前来说,真人主播和中之人能吸引粉丝的主要原因便是背后的那个「人」。
不管是介绍产品时候的「哦买噶,买它!」,还是及时准确地回答公屏上的问题,都让观众有了切实的参与感,而这是很多全自动虚拟人主播并不具备的。
那如果能开发一套能兼顾真人的优点的同时,又能简化流程、降低成本的直播系统,又会如何呢?
话不多说,先上效果看看。
和「中之人」类似,科大讯飞AI虚拟人直播系统的「人工播」模式,也是由真人主播进行配音的。
不过,在设备方面只用准备一台电脑和一个麦克风就可以了,无需繁琐的「动捕套装」。
其中的面部表情通过口唇驱动框架实现,而动作上的互动则可以进行个性化的定制,或者直接使用丰富的内置动作库。
如此看来,这个「Lite版」的维护成本和使用时的工作量,比传统意义上的中之人能少不止一个量级。
科大讯飞AI虚拟人直播系统更厉害的一点在于,真人主播甚至不需要自己进行配音。
你要做的就是把每个产品的介绍以及其他环节的文字稿准备好,剩下的交给系统就可以了。
在「脚本播」这个模式下,虚拟人终于做到了一个主播本应该做的事情。
没错,说的就是和观众的「互动」。
毕竟有的时候主播没有办法面面俱到地介绍一款产品,这时,不管是自己还是看别人提问,都可以便捷地让观众获得更多地信息。
从直觉上来讲,通常只有用户了解了某一款产品之后,才可能会下单购买。
而在科大讯飞AI虚拟人直播系统中,运营仅需点击已经准备好的内容,之后虚拟人会即刻中断正在进行的介绍,转而回答观众的提问。
虽说现在这种方式「人工」程度相对较高,但在即将发布的新版本中,系统可以通过AI对问题进行识别,然后自动给出相应的回答。
在操作上,科大讯飞的AI虚拟人直播系统为各家的直播助手都提供了支持。
此外,也可以利用OBS通用推流方案实现全面的覆盖。
为何要用虚拟人直播?
说回到直播带货上来,在这个领域内流传一句话:「万物皆可播,人人皆主播。」
凭借着优惠的价格和陪伴式的体验,直播带货也确实俘获了越来越多消费者的心。
据统计,我国电商直播用户规模为3.84亿,占网民整体的38%。另据企查查数据显示,全国共有1.6万家电商直播相关企业,其中2021年新注册8364家。
如今,不仅农土特产、口红、面膜等小件商品「走」进直播间,还扩展到家具、汽车甚至房子。
那么问题来了,明明用真人就可以做到的事情,为什么要用虚拟人呢?
的确,直播产业的发展催生出了无数的机会,但同样也带来了日益激烈的竞争。
在黄金时段,也就是流量最高的时候,每个商家都会派出自己最强的主播,尽可能多的进行销售转化。
科大讯飞的一站式解决方案
微信扫码关注该文公众号作者