“多”维演进:智能化编码架构的研究与实践
向更智能、更兼容演进。
陈高星|演讲者
Cloud
Imagine
01
02
03
窄带高清2.0细节修复生成核心技术模块包括以下7个方面:
一是训练样本多样性:建立类型丰富的高画质视频库作为模型训练样本,训练样本包含多样的纹理特征,对GAN生成纹理的真实感有很大的帮助;
二是通过精细化建模不断优化训练数据,基于对业务场景面临的画质问题进行深入分析,贴合场景不断优化训练样本,以达到精细化建模效果;
三是探索更有效的模型训练策略,包括训练损失函数配置调优,例如perceptual loss使用不同layer的feature会影响生成纹理的颗粒度,不同loss的权重配比也会影响纹理生成的效果。我们在模型训练过程使用了一种名为NoGAN/渐进式训练策略。一方面可以提升模型的处理效果,另一方面对模型生成效果的稳定性也有帮助。
四是为了提高模型对片源质量的自适应能力,我们在训练输入样本质量的多样性和训练流程方面做了很多工作。最终对中低质量的源有明显的增强效果,对高质量源有中等增强效果。
五是根据学术界的经验,处理目标先验信息越明确,GAN的生成能力越强。因此为了提升GAN对不同场景的处理效果,我们采用了一种1+N的处理模式,即一个具备温和生成能力的通用场景模型+N个具备激进生成能力的垂直细分场景模型,如足球的草地细节、动画场景的边缘线条、综艺场景的人像。
六是高效可控的模型推理,经过模型蒸馏/轻量化,同时基于阿里云神龙HRT GPU推理框架,GAN细节生成模型在单卡V100上,处理效率可达1080P 60fps。
七是为了保证GAN模型生成效果的帧间一致性,避免帧间不连续带来的视觉闪烁和编码负担,阿里云视频云通过与高校合作,提出一种即插即用的帧间一致性增强模型。
04
另一方面,是我们在AI for coding方面的一些相关实践,我们始终关注AI Codec在视频编码方向的发展。目前可以看到,它确实能够持续提升视频客观质量,在前处理以及编码方向能利用GAN以及Diffusion Model等生成技术提升主观质量。这也是我们正在研究的重要方向。
关于沉浸式编码标准,我们目前在持续关注基于“点云”的编码标准以及基于沉浸式的MIV编码标准,后续根据落地情况也会加入到多自研标准的编码器中。
LiveVideoStackCon是每个多媒体技术人的舞台,如果您在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的出品人/讲师。
扫描下方二维码,可查看讲师申请条件、讲师福利等信息。提交页面中的表单完成讲师申请。大会组委会将尽快对您的信息进行审核,并与符合条件的优秀候选人进行沟通。
扫描上方二维码
填写讲师申请表单
微信扫码关注该文公众号作者