对话声网视频算法工程师郑林儒:视频质量评价方法的最优解
在我们每天的日常生活中充斥着大量的视频内容,而用户对于视频画质在不同场景下又有着不同要求。对此,我们很荣幸地邀请到了来自声网的视频算法工程师郑林儒老师,来和我们聊一聊为了满足用户需求,针对不同场景选取哪种视频质量评价方法才是最优解。
郑林儒 声网 视频算法工程师
郑林儒,声网视频算法工程师。上海大学工学硕士,现于声网视频算法部门担任算法工程师。主要负责图像、视频质量与视频QoE评估,模型压缩以及视频编解码等研究,推动相关模型在移动端的应用。
郑林儒:大家好,我是来自声网视频算法团队的郑林儒。硕士毕业于上海大学,研究方向是屏幕图像质量评价,毕业后在声网也是继续拓展相关研究与开发。
LiveVideoStack:方便为大家介绍下您目前关注的一些技术、研究,或者是重点负责的一些工作项目?
郑林儒:现在主要负责图像、视频质量与视频QoE评估、网络模型压缩以及视频编解码等研究,推动相关模型在移动端的应用落地。关注的技术比较广泛,比如:视频增强,感知视频编码以及RTC中深度学习模型落地避免不了的轻量化问题。
LiveVideoStack:整体大环境的影响使得实时通信技术被广泛应用于不同业务场景及产品当中,在实时视频通信场景下,影响最终用户体验质量的一些关键因素有哪些?
郑林儒:从视频采集的时候,可能会出现异常曝光、摄像头噪声、摄像头抖动以及画面模糊等问题;通过编码传输和解码渲染可能会出现压缩失真、花屏、卡顿和端到端延时等问题;同时,一些研究也涉及了用户观看设备硬件的影响。上述出现的问题会给用户主观上造成体验下降。针对不同场景下,用户对这些问题感知上也会有差异,在视频会议的屏幕共享场景中,用户可能希望更高的画质而对帧率要求不高,而在赛事、游戏直播上用户可能更多的是希望有一个流畅的体验。
LiveVideoStack:目前常见的一些主观和客观视频质量评价的方法和模型有哪些?它们在指标的定义量化、数据收集和评价结果计算等方面分别具有哪些差异化特性?
郑林儒:目前业内常用的主观视频质量评估方法采取单激励、双激励评测,而现在画质增强评测任务中更多的是两两比较,用JND评分来评价增强视频与原始视频的画质差异。客观视频质量评价算法一般根据使用场景分为有参考(FR-VQA)和无参考(NR-VQA),FR-VQA通常用于量化对参考(无失真)视频处理后的失真水平,一般有PSNR、SSIM、VMAF以及LPIPS等。PSNR由于是点对点的计算差异,所以更多是一种像素变化程度的量化;SSIM评估的是失真对于图像结构的影响,量化是结构相似度;VMAF则考虑了图像保真度以及帧间的运动信息;LPIPS是一个深度学习模型,用于量化两幅图片之间感知差异,是较为贴近主观的FR-VQA指标。FR-VQA目前发展比较成熟,且应用场景有限,业内更多的是对NR-VQA的探索。NR-VQA由于受限于所训练的数据集分布,所以业内显有通用模型。一般从视频内容生成角度会分成UGC与PGC,从视频内容角度会分成自然场景视频与屏幕内容视频,从视频形式可以分为普通视频、360°全景视频和3D视频等等。学术界常用来对比普通视频的NR-VQA有基于图像统计特征的BRISQUE和基于深度学习的VSFA,在泛化性能上VSFA更胜一筹。
LiveVideoStack:目前传统的一些客观质量评价算法可能有一定的局限性,具体体现在哪些方面?
可以看到,传统I/VQA算法由于线上场景和运算资源的限制,很难进行线上部署。
LiveVideoStack:传统的QoE算法与端到端的QoE模型之间的区别是什么?
当前业内还没有一个成熟可用的实时通信视频QoE模型,学术界会有一些探索。他们之间的区别可以用传统、端到端VQA模型类比,端到端模型泛化能力更佳,而且可以借鉴业内小模型设计与压缩方法加速模型推理同时可以维持一定预测效果。另一方面,端到端模型QoE模型可以嵌入基于深度学习的其他处理模块,为其提供有效监督信息,从而可以进行调优。比如,端到端QoE模型用于时空超分模型后实时追踪用户的体验,并反馈传输系统以及时空超分模型可以用最少的带宽、运算资源最大化用户体验。
LiveVideoStack:端到端QoE模型目前面临的一些难点和挑战有哪些?是否也同样存在一定的局限性?
郑林儒:一般任务端到端模型的困难与挑战有共同之处,如:数据集的获取和标注、模型结构与损失函数设计以及模型端上优化。首先标注过程合理性决定了至关重要的数据质量,所以针对不同视频评估场景设计合理主观评测流程很重要;其次从分类模型的演变:VGGNet到ResNet,模型结构的设计会影响效果;然后由于QoE任务的复杂性,设计针对其任务特点的损失函数也是必不可少的环节;最后,由于端到端QoE模型用于实时反馈客户端用户主观体验,所以需要在较小的运算代价下实现模型推理,那就要求在模型复杂度与模型性能之间要做好平衡,这里端上部署的局限性相对于传统算法会好很多。
LiveVideoStack:看到您将参与LiveVideoStackCon 2022 北京站大会,可以给我们稍稍透露您将会分享哪些内容呢?
郑林儒:主要围绕着实时视频端上QoE建模这个主题,首先会介绍一些影响视频通讯主观体验的因素;然后针对这些影响因素声网现阶段建立了一些数据库;接着对于视频画质评估建立一个端到端模型;随后考虑到端上模型运行的实时性,介绍了当前主流的深度学习模型加速方法;最后介绍我们RTE-QoE探索的现状与对未来的展望。
LiveVideoStack:好的,感谢您接受采访,期待您在11月北京站大会上的精彩分享。
▼扫描下图二维码或点击阅读原文▼
了解大会更多信息
微信扫码关注该文公众号作者