汇聚音视频新能量 探索行业新蓝海
本次分享包括三部分,第一是行业困境,第二是寻求痛点即是寻求机会,第三是探索行业新蓝海。
-01-
行业困境,寒冬尽头未见暖阳
在经历了蓄势、转型、爆发三个阶段后,中国短视频行业发展已进入稳定期。良好的网络设施、移动互联网爆发红利以及PGC转UGC的内容爆发带来的红利,都为音视频行业创造了巨大发展机遇。
第十届中国网络视听大会报告中指出,短视频已经成为用户打开移动手机的第一入口。从技术角度看,音视频行业规模已经迅速发展壮大,五年前从事此行业的人数还比较有限,主要以广电等传统企业提供视频相关技术为主。最近几年,这些人已经快速涌入各个互联网大厂,音视频行业已进入繁荣状态,不断扩大行业规模并提升行业产出。所以,视频化的趋势是不可逆的。
但也有一些相对不利的情况,2022年手机出货量下降幅度非常大。有些厂商的下降幅度达20%,有些甚至下降了30%。这表明移动互联网的需求已经达到了饱和,抛开经济因素,主要原因是新款手机很难有变革性功能以吸引用户。
目前移动互联网用户和网络视频的使用率已经非常高,趋于饱和,所以增量市场已经基本没有。
视频的分辨率由1080P发展到2K、4K,越来越高,可以实现的能力也越来越多。然而,问题在于现在的手机屏幕大小已接近极限,除非采用折叠屏,但相关手机销量并不高。而手机屏幕的PPI(即每英寸所拥有的像素数目)也无法让用户明显感知4K和2K之间的差异。有报道称,大多数用户无法区分4K和1080p,这也是需求饱和的风险。
toB行业卷成红海,从事toB领域的同学们在过去几年中工作可能并不顺利。如图所示,IDC的报道显示,预计2021年版本中toB预估的增速将超过30%,但实际值仅为19%。因此,它下调了所有预估值。与上文提到的VR相似的是,达成预估值并不容易。此外,传统云厂商、互联网厂商以及运营商都希望在toB市场上分得一定份额。互联网公司凭借技术,运营商依靠资源,各自有增长和溢出的需求。因此,这种增长方式变成存量竞争,但实际上增长并没有那么快。
就toC领域而言,2020至2022年整个行业数据表明,头部效应极为强烈。视频行业的GDP明显地聚集在巨头,而创业公司或小型APP的生存环境则不断受到挑战。由于用户更加倾向于使用头部APP,小型APP仅能在有限的用户群体中提高盈利效率,实现自负盈亏。
-02-
寻找机会,从行业痛点出发
目前,短视频行业存在三方面机会。视频本身属于重工业。以快手为例,主要致力于两件事情:持续降本并兼顾提升化用户体验。在成本和体验之间存在着方法论。为什么降低成本对快手如此重要?快手需要的计算机资源体量庞大,存储EB级,带宽上百TB,AI算力近1010T FLOPs。AI技术已经越来越多地应用于视频质量评价、增强及压缩。在如此巨大的规模下,每年团队都会被要求成本进一步压缩10%甚至更多。
优化的策略主要在清晰流畅与降低成本之间寻求平衡,这二者是相互矛盾的,因而必须做出取舍。为了实现这样的平衡,可以通过QoS、QoE、大数据、各种AB实验,并对用户进行细分,以达到优化目标。例如,我们会根据用户的爱好、收入水平、所在地域等因素,分析用户对视频需求。此外,我们还发现用户对不同垂类视频的需求也有所区别,对摄影类视频而言,用户更看重清晰度,而对剧情剪辑类视频则不然。
在平衡清晰度和成本之间,有基于ROI的策略可以采取,利用计算资源置换带宽或存储。在视频的不同生命周期,也会有不同的取舍,最终会找到ROI最优点。
因此如何进行科学的设定是一个困难的问题,这背后需要一把尺子,而目前行业缺乏好的标准。
另一个机会点在toB服务。近年来,越来越多的互联网公司加入视频行业并积极拥抱视频大趋势。尽管整个行业呈现视频化转型,但我们发现目前一些企业的视频化程度还比较低。由于视频内容的复杂度不同,对应的码率也千差万别,因此如何进行科学的设定是一个复杂的问题,这背后需要一些度量标准。目前,整个行业缺乏可操作的标准,因此我们需要进一步探索。
目前,优质内容的制作效率相对较低,例如制作一部动画往往需要三五年甚至十年,这是由于从创意构思、分镜规划、原画绘制、场景设计、音乐制作到后期制作等,形成了一条非常重的产业链。AIGC技术有可能实现内容大爆发,但这可能并不具备实质价值,因为内容已经呈现过剩趋势,过量生产的作品可能并不能得到用户的关注。然而优质的影视剧仍高度受到用户喜爱,如热剧《狂飙》。这其中最基本的矛盾点在于优质内容的供应依然稀缺,用户反馈视频刷腻了也可间接反映出供给过剩的问题。未来几年,更应该加大对高质量内容的生产投入。
-03-
蓝海显现,激发行业增长点
在蓝海探索的方向上,首先,国内要继续进行基础技术的突破,尤其在音视频方面追求极致。其次,在海外市场,中国工程师研发出的技术具备很高的竞争力。最后,随着AI技术的突破,我们可以抓住技术创新机遇,打造全新的产品和体验,将原有技术提升十倍以上。
近期,我们重点投入快手视频质量评估(Kuaishou Visual Quality, KVQ)相关工作,这部分很好地体现了快手做视频压缩增强的方法论。在提到音视频时,大家都会非常关注编解码,因为它和体验及成本关系密切。视频的流畅度和清晰度都与成本相关,为了获得更流畅的视频体验,需要进行视频压缩;为了在相同的码率下获得更清晰的视频,就需要采用AI增强的方法。
下图中的闭环部分指的是视频上传后,先进行增强修复,从1080p变成4K,再进行压缩。每进行一次增强,效果相当于提升20%码率,如提升30%,基本就是一代编解码的标准。此外,压缩使用的是私有编解码算法KVC,可以将视频压缩到比HEVC小20-30%。在整个过程中,质量的变化采用KVQ进行监督,从而以衡量端到端的损失。
快手所采用的是基于transformer模型的数据集,数量达到了千万级,与传统算法的千级数据集在性能上有很大的提升。CVPR2023会议收录了快手音视频论文,在PGC数据集上,我们相较于SOTA的主观相关度提升了5.7%,在UGC数据集上提升了28.7%。传统的SOTA算法主要数据集都集中在PGC内容中。
除此之外,KVQ还可以在哪些应用场景中发挥作用呢?上文提到,简单设置视频码率需要找到RD曲线,进而找到性价比最高的码率点。RD曲线越准确,选择的码率点也就越精准。此外,KVQ还可以衡量增强的收益,KVQ0.1大概相当于20%的码率。可媲美人眼,甚至在和GoldenEye PK时已经超过了他。KVQ已经在快手实现大规模应用落地,从视频推流、直播推流到最终消费策略,能够看到整体视频质量的变化。
下一个技术突破是PCDN。随着CDN架构的成熟,大家逐渐认识到CDN距离用户越近越好。传统CDN在全网服务器的节点数是数十万起,而整个PCDN会有千万级的节点数。目前PCDN所面临的主要挑战是,由于这些节点和资源的稳定性和带宽质量比原本的骨干网络要差很多,因此需要采用类似Google的方式,把较差的服务器集中在一起做成稳定的集群技术。结合快手端的技术,通过传输和调度,在实现AB实验和QoE指标不掉的前提下,做到大规模扩量。
目前,快手PCDN占量非常大,因此带宽使用成本大幅降低,让音视频重工业变得更便宜,接近轻工业。有人说,做AI的大模型创业投入非常大,但实际上,做视频的投入会更大,因为视频上传后,带宽的量级通常会达到十亿甚至几十亿级别。我们正在着手将快手的传输协议做成开放标准,快手上传协议为KTP,直播拉流协议为KLP,多码率自适应直播协议为LAS,点播协议为AAS,这些都是领先行业最早提出的标准。现在,我们将这些协议汇总并统称为CMTP,希望能够将其打造为国际标准。未来几年,我们将相关算法整合进大型算法框架中,以解决在推流传输拉流的消费问题。
快手正在重点参与ECM标准的制定,目前数据显示ECM比VVC小30%。
在2022年StreamLake品牌发布会上,我们正式发布SL200芯片,并且今年CCBN展会上也将推出硬件编码器产品。SL200芯片是目前行业中压缩率最高的视频芯片,预计今年进行大规模上线,在视频的直播和短视频场景下带来极致的效率提升。
除了技术上的突破,我们希望在行业中进行更多开放合作。快手每年在音视频研发工作上投入非常大。而行业内许多中小厂商因为视频渠道和规模不够庞大,在技术投入和深度上较少,但在客户资源生态方面具有很大优势。我们期望更多企业可以与快手技术展开合作,形成优势互补,大家一起将蛋糕做得更大。
关于海外,这里和大家分享一个故事。我的朋友从事数据库相关工作,他说,在为国外客户提供服务时,中国工程师有一个突出的特点——修复bug的速度非常快。在国外,工程师通常按月计算修bug的时间,而中国工程师则按天甚至按小时计算,这也成为了国外客户选择购买中国产品的一个原因。
据下图表数据显示,中国人口从2022年开始不再增长,而世界人口却持续增长。此外,虽然在中国手机出货量大幅下降,但在全球范围内却没有出现下滑。这表明国外市场的发展可能和国内几年前的水平相当。
巴西和印尼网络的发展情况,这是国内几年前的水平。
综上,我们许多先进的技术可以很好地在海外得到应用。目前,海外处于移动互联网增长的中段,我们可以将国内在短视频领域先进的技术复制到海外市场,让国外享受到我们的技术红利,赋能全球,为海外用户带来更好的服务和体验。
在本次分享中,所有的图片以及背景图都是由AI绘制的。如果采用人工手绘,则可能需要几倍的时间。
日常拍摄一组照片所需的成本包括模特、化妆师、灯光、服装、外景、摄影和后期制作。而现在,通过AI,只需花费几分钟,就能获得一组照片。除了照片,AI还可以合成视频。
装修方面的应用:输入毛坯照片即可获得装修方案
Diffusion技术简单来说,是通过高斯模糊来训练视频生成的能力,可以通过大数据学习画师的技能。这是一项非常先进的技术突破。在2022年,Diffusion的进展非常迅速,从最初能够推理1000步,到现在已经可以推理十几步。它可以与编解码技术很好地结合,编解码本身是压缩和重建的过程。当压缩到极致时,只需要用高维简化的特征就可以生成视频。未来,我们可以期待手机中装载非常大的模型,只需要简单的指令即可重建所需内容。
通过提取视频的基本轮廓特征,并结合prompt技术,可以生成更加清晰的内容。未来这项技术有望将视频压缩占比相较现在小100倍。
大家都知道热门美剧《硅谷》中最具突破性的技术就是Pied Piper,如果能实现该技术,那么,未来技术的发展必将迎来更大突破。
以上是本次的分享,谢谢!
LiveVideoStackCon 2023上海讲师招募中
微信扫码关注该文公众号作者