你在直播间看到的高清1080P,可能还没720P画质好
允中 发自 凹非寺
量子位 | 公众号 QbitAI
经常看直播的朋友,可能有过这样的经历:
在不同的直播间,长相甜美的主播小玉与主播小美同样是1080P高清分辨率,但小玉由于开播环境比较暗,直播设备比较差,美颜功能不够自然等原因,导致看到的画面视觉效果却远远不及小美。
长此以往,小玉的直播间人气下滑,粉丝越来越少。
为了提供更好的直播体验,弥补不同硬件和开播环境的缺陷,声网最新发布的“实时高清·超级画质”就解决了这一难题。
这其中涵盖了不少视频黑科技,比如画质增强算法、人眼感知优化、移动端实时多倍超分等,能够实现360P的视频秒变1080P,视频画质的智能补光、色彩增强,全面提升视频画面的分辨率、画质和流畅体验。
智能调节画面色彩、智能补光:榜一大哥看了都说好
不管是直播还是音视频通话中,视频画质在很大程度上决定了用户体验的好坏,对此,声网的视频技术团队在过去几年深耕实时视频画质增强,上线了 AI 画质。
AI 画质充分利用了视频采集播放端设备的平台能力,在影响视频画质的色彩、清晰度、风格化等方向上提供了一站式的解决方案,其中就包括暗光增强、色彩增强、视频降噪等多维度的画质增强算法组合。
智能补光:很多主播在直播时经常会遭遇光照条件较暗或者背光的开播环境,这会导致成像的场景中画面较暗且不清晰,有效的细节信息看不到。对此,声网的暗光增强算法在面临光照条件较暗、背光、光照不均匀的环境时会进行智能补光,自适应提升视频画面的亮度,恢复画面细节轮廓和增加画面清晰度。
主播在使用补光灯等设备时,经常还会遭遇曝光过强的问题,声网“暗光增强”算法就规避了这一问题,避免过度增强正常曝光的区域,最大化平衡性能和画质效果。该算法还支持了智能场景检测,根据光照条件动态自适应地开启和关闭。
智能调节色彩饱和度:在直播中,用户有时会看到主播的画面变灰,并出现失真,这时候往往是画面的色彩饱和度出了问题。对此,色彩增强算法可以智能调节视频画面的饱和度,改善画质,使得画面色彩更加丰富和逼真,提升人的视觉主观感受。该算法还融合了多种肤色识别算法,确保人物肤色不会因色彩增强而变得突兀。
视频降噪带来双BUFF增益:当我们在光线不足的情况下拍摄视频时,手机为了弥补缺少的光线,会自动增加ISO值,从而导致画面出现噪点。在视频直播/通话的场景中,同样会出现噪点,声网的“视频降噪”功能可以在低端采集设备和暗光场景,大幅减少闪烁的噪点,并最小化“拖影”等视频降噪最常见的负作用。
此外,视频降噪还具备另一层buff,开启后可节省28-35%的传输码率,进一步提升视频接收端的画面质量和清晰度。
人眼感知优化:你关注的更高清
我们在观看视频或图像时,往往会希望主观关注及感兴趣区域能够拥有较高的清晰度,而对于非关注区域,只需要达到基本视觉要求即可。
基于人类的视觉特点,在视频编码中,通过对感兴趣区域进行低压缩比,甚至是无损压缩编码,以获得高质量的重建图像,而对非关注区域采用较高压缩率,这就是ROI (Regions of Interest,感兴趣区域)视频编码技术。
在直播/视频通话场景中,声网通过 ROI 和 PVC 算法,提升人眼感知画面的细节效果,ROI 主要凸显画面细节,PVC 凸显色彩优化,以综合提升观众对画质的主观体验。由于声网的 SDK 主要面向直播/视频社交/会议类应用,画面中往往人脸就是感兴趣区域或者视觉聚焦区域,因此声网 AI感知处理算法是基于人脸检测的视频编码技术。
实现原理是通过检测到人脸区域确定感兴趣区域,在编码过程中,对图像中人脸的区域降低量化参数值,从而分配更多码率,以提升感兴趣区域的画面质量,而对非人脸区域的区域则提高量化参数值,分配更少码率,在不损失图像整体主观质量的前提下,降低视频码率,提高视频质量。
△经 ROI 编码处理后的图像对比
360P秒变720P:画质跨越式提升
不管是色彩、暗光增强还是ROI人眼感知优化,都是在视频分辨率不变的基础上进行画质效果的提升。而在一些欠发达的海外地区或智能硬件终端中,受到设备性能、传输成本、用户带宽等限制,传输的往往是低分辨率的视频,因此为了提升视频画质质量,进而提升用户的观看体验,需要借助拯救分辨率的“魔法“:
视频超分辨率技术,在用户端将接收到的低分辨率视频重建成纹理丰富、细节清晰、观看体验佳的高分辨率的视频,简称为超分技术。
目前业内很多主流的终端实时超分算法更集中在PC端,PC端的设备相对可以提供更强的算力,实现高性能的视频画质实时增强。
但当下直播、视频通话等场景都逐渐集中在移动端,在移动端用户设备性能参差不齐,这就要求移动端实时超分的复杂度必须极低,这样才能在大部分移动设备中做到实时处理,并在超低计算量的情况下还能保持较好的视频超分效果。
对此,声网的人工智能算法团队经过持续的技术钻研,推出了业内首个基于移动端的实时多倍超分算法,该算法的优势是成本低、功耗小,不需要部署 GPU 服务器,仅依靠移动端设备自身的CPU、GPU 或 NPU 来实时超分,以较小的算法计算量实现视频分辨率的多倍超分,有效增强了视频的画质,并降低视频传输的成本,普通的360P画质能够通过超分实现对标540P效果。
通过下面的视频,可以更直观的感受360P开启超分后的画质效果。
声网移动端实时超分的技术原理是基于深度学习算法进行丰富的视频数据训练,从大量的低分辨图像和高分辨图像对,有监督地学习低分辨到高分辨率的映射关系,实现图像放大后,细节丰富、画面清晰的效果,其超分效果、自适应能力明显优于传统的超分方法。
在性能和适配方面,声网多倍超分算法在中低端机型也能实时处理,能够覆盖95%以上的 iOS 视频用户,85%以上的安卓用户。且CPU 消耗、SDK 内存消耗低,单帧处理耗时平均在 10ms以内,在1对1视频通话场景中开启多倍超分后,SDK 的内存消耗只增加10%左右。
伴随视频进入超高清时代,人们在直播、视频互动中也在追求更高清、更美观、更自然的视频画质,APP厂商也应与时俱进,在保证视频高分辨率的前提下,注重对画质细节的提升,才能抢占更多用户市场,带来更多流水。
需要实时提升直播/社交平台的画质,可以用声网“实时高清·超级画质”试试。如想进一步了解“实时高清·超级画质”,可在后台留言,会有工作人员与您联系。
*本文系量子位获授权刊载,观点仅为作者所有。
— 完 —
量子位 QbitAI
վ'ᴗ' ի 追踪AI技术和产品新动态
微信扫码关注该文公众号作者