ChatGPT火了之后,Sam Altman的话开始被挖出来,反复咀嚼,奉为圭臬。他曾有一个很简单的定义一种产品或技术革新是否具备确定性的方法:一小撮最先接触到它的人每天会在这东西上花很长小时,长期沉浸其中,那这东西大概能成;反之,如果一个新事物仍然在哪怕一小撮人都无法上瘾的阶段,那一个新的浪潮就还不是时候。这位OpenAI创始人重新夸赞了一番iPhone,又踩了一脚VR,然后将ChatGPT推上那个“iPhone时刻”。但这样看起来基于常识又过于理想化的判断思路并不是没有反例,比如曾短暂风靡的Clubhouse。或许有一种更长尾角度的判断思路。比如当最坚固的诺基亚用户也开始打听乔布斯,那“iPhone时刻”才真的来了;或者当穿着白袍,戴着白巾的保守中东网民开始举着手机社交的时候,世界才确定真的进一步跨越到了一个实时互动的巨大浪潮里。2016年成立的 Yalla Group是目前语聊房市场中体量最大的公司,它在2020年成为阿联酋第一家在纽交所上市的科技公司。上市三年后,这已经是一个月活用户接近3200万人,付费用户超过1200万人的巨型流量体。在Yalla的聊天房里,经常可以看到超过1000人同时在场的盛况。在这个上线2000人的音频空间里,很多声音是从沙特阿拉伯、卡塔尔甚至阿联酋传过来的。这样的事正在发生。
传统的 RTC 概念,从信息传递的角度出发,音频功能仅提供简单的语音沟通,满足单一的场景和通话标准,对于音质并无太高的需求,也就是所谓的“能够沟通”。伴随着实时互动创新场景的涌现,用户对于音频体验的需求也产生了从量变到质变的进化。音频娱乐在当下已经不是一种独特的“需求”,而是所有泛娱乐场景中的标准配置,这为RTE技术、产品及解决方案的提供者提出了更高的要求。比如在线 K 歌、线上会议等场景,用户的需求早已从能够沟通到希望“脱离现实”,屏蔽外界干扰,实现纯净沟通;对于元宇宙、虚拟活动、游戏竞技等场景,用户则是希望从简单沟通实现“极致拟真”的沉浸式体验。适配当下的实时音频技术,既要听感上无限接近真实世界,又要在体验上脱离现实。这二者拟合在一起,就是声网的凤鸣AI引擎。3 月 23 日,实时互动云服务商声网发布了囊括AI降噪、AI回声消除、空间音频、最佳音效在内的新一代音频技术智能引擎“凤鸣AI引擎”。开发者与企业可以如搭积木般灵活调用对应组件,并广泛应用在语聊社交、在线 K 歌、线上会议、游戏竞技、虚拟活动等诸多场景从Yalla到Oasis,背后都是声网实时音视频技术在提供底层能力。这些最早在语聊房场景积累起来的音频实践开始沉淀成不同场景下的音效配置方案,这些方案在产品化之后,成为凤鸣AI引擎最佳音效的语音能力。如果把音质、延迟问题当作实时音频在还原现实时遇到的最初难题,那么模拟出声音的空间感已经开始成为新的增量。空间音频能力也是声网凤鸣AI引擎瞩目的语音能力之一。凤鸣·空间音频技术可以模拟头部球面区域立体声场,使用户在音频听感上具有空间感。当用户操作虚拟人物在虚拟场景里移动,可以实现根据虚拟人物的面部朝向、音源朝向、远近距离与上下高度,呈现不同声音效果,完美模拟现实听觉感受。凤鸣AI引擎的空间音频能力可以完成对大量场景的重建。在疫情中,大量在线展会、线上博物馆的新场景出现,这些场景中已经可以构建出优秀的视觉空间效果;另一条线上,由Clubhouse带起的互动播客将声音的空间感推向外界。这样的空间音频效果如果叠加上进当前已有的线上场景,将进一步颠覆后者的体验。比如当罗大佑再次出现在线上演唱会时,听众可以听出罗大佑身后乐队中吉他手和贝斯手的位置区别;或者在一场博物馆的线上游览中,参观者可以随着自己的走动听到“身边”其他人对于展品的议论。同时,空间音频是元宇宙和游戏这类具备 3D 场景玩法的最佳搭档,如狼人杀、虚拟演唱会、虚拟活动等场景,可以有效的增强用户在线上的互动、听觉体验,重构用户在虚拟世界的沉浸感与临场感。并且由于声网3D空间音频采用纯软件算法方案,对于调用的开发者来说无需考虑硬件设备因素。通过任意耳机在手机和电脑端即可体验沉浸感受,且支持 iOS、Android、Mac、Windows、Unity、Unreal等多平台。开发者不必担心空间音频功能对于用户设备的影响。据数据测算,开启空间音频功能后,相应设备 CPU 消耗增幅平均值< 0.7%,内存消耗增幅平均值< 2M。
沉浸感交给AI
极致的音效和空间音频能力能够让凤鸣AI引擎尽可能的在实时互动场景中还原出声音的真实。另一方面,AI能力让这种真实成为体验上脱离现实的沉浸感。键盘敲击声、房屋的装修动静或者室外的汽车噪音,这些真实的声音会影响沉浸感的形成。声网凤鸣AI引擎集成了利用算法对稳态和非稳态噪音进行屏蔽的AI降噪能力,可以在保证人声无损伤的前提下,强力抑制 100+ 类型突发噪声,在低信噪比或人声密集场景下实现纯净通话体验。声网表示,凤鸣AI引擎的降噪能力几乎可以覆盖现实中常见的所有噪音种类。对噪音的改善本质上是为了保证实时音频交流中纯净的通话体验。凤鸣AI引擎灵活的降噪能力在保证强降噪的同时可以兼顾高保真。这意味着它可以穿透商场这种人声极度密集的场景。并且当对话者暂时远离麦克风导致声音模糊时,声网的 AI 降噪算法也可以做到使对端能清晰的听到该用户的声音。除此之外,凤鸣AI引擎的另一项能力在于强力的回声消除能力。在线上会议、在线K歌、多人连麦等场景中,回声的存在是影响通话质量以及互动体验最大的因素之一。声网的AI回声消除技术可以利用算法对环境中产生的回声混响进行有效抑制,并且能够智能适应各类环境以及对不同音源做精准分离,从混合的近端信号中消除不必要的远端信号,保留近端人声发送到远端,从而实现全面消除回声,实现高保真音频体验。