由于世界各地迥异的风土人情,文化偏好与基础设施建设水平,音视频业务在全球化的推广进程中遇到了诸多困难,这也使得元宇宙在未来的布局中会面临多种挑战。为了更好的服务不同地区的用户,传音基于终端平台做出了一系列针对音视频、影像、游戏等业务的优化解决方案,提升了用户在不同场景下的视听体验。
本次分享将分为三个部分,第一部分介绍全球用户在音视频业务中的痛点,包括弱网环境,环温差异,文化差异,个性偏好差异等;第二部分主要阐述传音针对不同用户所研发的网络优化,音视频影像,游戏体验优化等技术。为了提前布局元宇宙,并在AIGC时代迎来新的机遇,传音针对不同地区的人群研发了AI语音,虚拟人等技术;在未来也将在终端平台搭建异构计算,交互体验预测等新的技术平台,这些内容将在第三部分详细介绍。
文/赵玉东
整理/LiveVideoStack
大家好,首先简单介绍一下传音,它是面向非洲、东南亚、拉美的手机终端制造商,在十多年间积累了很多全球化经验。今天分享的题目是《建设高性能终端平台——传音元宇宙的基础设施探索》,元宇宙是一个综合了各种音视频交互(游戏、体验等)的全方位框架,在这个场景下,有很多可以展开的内容。接下来做个自我介绍,我叫赵玉东,博士毕业于伦敦玛丽女王大学,研究方向主要是音频相关,包括音乐风格建模等。在传音,我主要负责游戏端音频探索、性能优化等。
这张图是Jon Radoff提出的元宇宙构成要素。底层是基础设施,接下来是人机交互,包括交互体验和方式等;再往上是去中心化,如边缘计算、AI代理、区块链等,其相当于元宇宙的机制;空间计算即如何把元宇宙中的虚拟空间和现实进行映射结合,以获得沉浸感体验;传作者经济和探索发现关乎元宇宙具体如何运作;最上层是在综合了视觉、听觉、触觉等之后,给用户带来最终的沉浸体验。本次分享主要分为三部分:1、全球化当中的挑战与痛点;2、针对挑战和痛点的终端解决方案;3、未来技术探索。上图是元宇宙相关技术的分类,包括应用场景、算力、算法、通信、交互技术、产权规则。对应的,每一类别都面临相应的挑战,比如算力会有性能瓶颈,算法模拟的真实世界需要考虑人文文化,在通信层面需要应对不同国家地区的网络情况等等。上图是各国互联网用户在本国家的数量占比情况。可以看到,从2005年到2021年,各国的互联网用户有明显的增长,但例如非洲等地的入网人数还是比较有限的,这也一定程度反映了各国网络基础设施是参差不齐的,同时也会给用户服务带来一些问题和挑战。此外,在日常生活中,例如在高铁和地下车库、商场等环境中,都会遇到网络不佳、信号屏蔽的情况,这样用户使用网络时延迟就会变高。然后是性能瓶颈,在游戏、直播等场景会遇到终端算力问题,面临全球不同用户的需求,如何满足不同机型的使用体验。面临各地不同的气候环境,终端体验的差别也是非常大的。人文文化有时是被忽略的一点。例如某些小语种、音乐偏好、宗教习惯等可能在设备中不被支持,同样会影响用户体验。在偏好与习惯上,不同地区的用户会对色彩感知、声音类型和仿生学定制有不用的偏好和习惯差异。最后就是需要兼顾全球各地对于隐私数据安全、法律和社会道德的要求。例如针对算力,会提供温升控制和智能算力分配;在算法层面配备色彩增强引擎;通信层面增加本地化网络治理策略;交互层面涵盖小语种语音交互;遵守本地的政策法规;根据地区的应用场景做本地化虚拟形象。首先是弱网优化LinkPlus,它是为解决弱网环境下游戏时延高卡顿、视频难以加载、网页打开缓慢、视频电话卡顿、手机在上网场景中发热严重等应用问题二设计的网络优化引擎。LinkPlus v1.0基于前端反馈机制+AI预测模型的应用单链路分流,保持链接不断的情况下实现网络智能切换和功耗调节;LinkPlus v2.0基于AI预测模型的多链路数据补充解决单链路数据弱网问题;LinkPlus v3.0使用自学习的AI算法打造符合个人使用习惯的网络生态(AI联合学习框架);LinkPlus v4.0是构建端、云、边全链路网络解决方案。这是弱网治理的技术架构图
前端有三个感知模块,分别是用户喜好、网络环境和应用反馈的感知。接着,把对应的感知结果传到LinkPlus智能调度,以分配不同的网络。上图是LinkPlus功能开启和关闭情况下在不同弱网环境中的时延对比数据。经过实验对比发现,LinkPlus可以快速预测网络变化并寻找切换最优网络。上图是一个实际应用场景的示例
一个用户的前台app正在进行游戏,后台运行着其他app,LinkPlus会感知用户的使用情况,同时判断当前的网络状态,结合二者把前台应用分流到状况较好的网络,另外网络QoS处于动态监控,A引擎映射会根据QoS预测QoE。色彩增强引擎(PQE)通过调整画面的清晰度、饱和度、亮度、对比度等参数优化画面质量,用户可以针对某个特定App使用参数优化视觉体验。首先是智能超分算法。GPU渲染低分辨率图像(720p),通过AI-SR超分算法提升其分辨率并智能恢复细节(1080p),以减少GPU算量,降低整理功耗。智能可变渲染是通过AI识别场景关键点位置,降低非焦点区域渲染质量,以达到节约GPU功耗的目的。智能帧回救系统通过AI算法预测游戏每帧的算量需求,动态调整CPU工作频率,实现帧内预测与回救,减少掉帧,平衡游戏功耗。智能环温预测是通过获取到的原始特征如主板温度、CPU温度、使用率等,进行数据预处理,结合分类模型进行环境温度的预测,为手机温升提供策略支持。在游戏内可通过悬浮窗快速开启温升控制,在开启温控策略的情况下,可以根据实时使用情况预测到温度变化,控制发热情况,减少限频卡顿现象。我们推出面向新兴市场本地小语种的AI语音助手,针对非洲网络基础设施特点进行了离线语音交互方案,适配本地口音、场景和领域。接下来是针对个性化场景的音频降噪。需要根据当地的噪音场景进行数据收集,建立数据库,以应对当地个性化需求。降噪效果演示:传音拥有亿量级的深肤色影像大数据库平台,以及相应的图像算法、国际标准、定制芯片等。图为针对印度市场的虚拟人解决方案,和传音取得的数字人系统基础能力评测证书。未来技术的探索包括算力增强、网络深度优化、VR+内容借口、玩法体验优化等。首先是网络深度优化。在预测机制方面,根据QoE和QoS映射关系,进行主动和被动探测,通过决策层然后做出相应的策略。如图是未来在算力增强方面需要做的一些探索方向。
传音除了是终端制造商,目前也有移动互联的业务,希望结合人因工程和大数据,打造生态化的应用场景。最后是希望打造全方位玩法的感知优化,包括视觉、听觉、触觉和玩法的体验感知优化。▲扫描图中二维码或点击“阅读原文” ▲
查看更多LiveVideoStackCon 2023上海站精彩话题