Redian新闻
>
对话火山引擎王悦:多媒体继续向更高清,更交互,更沉浸演进

对话火山引擎王悦:多媒体继续向更高清,更交互,更沉浸演进

科技

2019年的深圳,LiveVideoStack第一次邀请到了字节跳动的嘉宾来做分享。随后便通过朋友认识了王悦,他所在的火山引擎支撑起了字节跳动旗下的音视频能力,支持数亿DAU,为每天数千亿次播放与互动提供保障,他们是如何做好这一切的?除了数据驱动、A/B测试还有哪些深度的思考与方法呢?借LiveVideoStackCon 2022北京大会的机会,LiveVideoStack第一次采访到了王悦,涉用户体验与成本控制,计算与网络成本的权衡,异构计算在各场景下的应用等。


王悦 火山引擎 视频云架构技术总监

王悦,2006 年于清华大学电子系获得学士学位,2012 年在中国科学院研究生院获得博士学位,目前担任火山引擎视频云架构技术总监,在多媒体领域有丰富的算法、工程架构和产品业务经验。
 

Dialogue with Wang Yue

LiveVideoStack:王悦你好,如果没记错,这应该是LiveVideoStack第一次正式采访你,先和我们读者介绍下自己吧。你现在最核心的工作什么?最关注哪些技术、业务指标或是其他方面?

王悦:我所在的火山引擎视频云部门,承载了字节跳动业务的音视频技术,经过数亿DAU、每天数千亿次播放&互动打磨的实践验证;如今,我们不仅对内为抖音、西瓜、头条产品提供服务,同样也面向各行各业用户提供视频化能力和服务,具体包括企业直播、视频点播、视频直播、图片服务、RTC、智能处理等产品能力。我们的目标和愿景是帮助业务伙伴,将海量富媒体内容以最低的成本、最优的画质、最低的延时、最安全可靠的方式传递给受众,因此我们所关注的技术方向覆盖多媒体内容从生产到播放的全链路,包括采集、编码、处理、转码、传输、播放等环节中所涉及到的算法和工程技术,以及大规模高并发高可靠的分发架构。


LiveVideoStack:年初,火山引擎、阿里云和腾讯云发了超低延时直播协议信令标准。接下来行业巨头还有可能走到一起降低业务壁垒的可能性吗?如果有,是什么原因让大家走到一起合作?


王悦:火山引擎一直秉承着开放的姿态去构建技术产品,一方面把过往在字节业务打磨好的体系方法,标准化开放出来,另一方面引入更多的友商一起共建,保持互联互通,打破各自的技术孤岛,让客户的接入成本降低,效率提升,并有更多的选择空间。这点我们在低延时直播对接的客户中,就有很正向的客户反馈,后面火山引擎也将沿着这个思路继续完善、拓展更多的技术项。对于行业友商,我相信也期望看到这个变化,开放标准,共建标准会让整个行业趋向健康和成熟的模式发展,对于客户的价值也是最大化的,只有客户成功,整个行业才能成功。接下来火山引擎还会继续开放和推动更多的行业标准落地。


LiveVideoStack:在经济放缓的背景下,降低成本成为许多企业的必选项。火山引擎正在通过哪些方式降低成本?尤其在不影响用户体验的前提下。


王悦:企业在视频云上投入的成本由商品单价和用量共同决定,火山引擎视频云对客户成本负责,在不影响用户体验的前提下,通过多项技术手段持续降低单位流量和计算成本,并挖掘用量的合理节省空间。


带宽方面通过PCDN等基础能力建设,调度手段削峰埋谷和业务间的资源复用,达到流量单位成本的降低;在计算方面,我们主要通过对异构计算集群的规模化应用及基于场景的灵活调度达到计算单位成本的降低。


用量优化上从码率、浪费率两方面为业务提供降本能力。码率我们主要通过算法手段降低单位像素的流量耗用,算法手段主要包括编码标准、算法的升级,以及编码前的去噪增强、自适应处理等前处理技术。播放过程端到端全链路有很多地方有缓存的存在,消耗的带宽费用并没有都真正用在了播放上,我们通过一系列指标分析和监控,找到不影响播放提前的情况下控制全链路缓存的策略,降低预加载、播放缓冲、CDN等环节造成的流量浪费。


另外想说的一点,计算和带宽之间的收益是可以相互转化的,因此需要在两者之间找到最佳的甜点。做视频编码的同学都了解,指导编码优化的核心原则是对带宽-失真(体验)曲线的凸优化问题,也有学者提出过在计算资源受限下,这个问题就变成了带宽-体验-计算曲面的凸优化问题,这个模型和原则完全可以从视频压缩推广适用到整个端到端业务上,我们努力和优化的目标,一直是这三个维度下的业务最优甜点。


LiveVideoStack:异构平台(ARM、GPU、FPGA和AISC)在火山引擎内部的应用情况是怎样的?支持了哪些关键业务?


王悦:这四种计算资源在火山引擎上都有规模化的部署和应用。具体来讲:

ARM板卡本来是支持云游戏、云手机等业务需求而研发的,我们把编转码内核在ARM指令集上深度移植和优化之后,经过测算发现这种计算资源在密度、成本方面相较x86服务器有很大优势。虽然该方案在处理速度上有一定劣势,但视频点播业务大部分转码需求都对延时不敏感,我们正在这些业务场景里逐步提升ARM计算资源的覆盖量。


GPU主要用于对深度学习、并行计算、高性能渲染强需求的场景,主要在视频画质检测与分析、质量增强处理、XR云端渲染等模块用到。


ASIC是我们正在重点规划并研发中的转码计算方案,可以看到各友商这两年都在尝试这个方向,要达到一定的规模门槛才能实现正向的边际收益。字节的业务规模,为我们提供了一个非常广阔的实现杠杆收益的空间,我们在这个方向投入了顶尖的研发团队,预期交付的方案,在密度、成本方面比x86会有显著的优势。


FPGA是一种比较折衷的计算资源,密度、吞吐比x86好但比ASIC差,相比ASIC的主要优势是可擦写、更灵活,可以实现渐进迭代。我们目前几乎所有的图片和动图转码都是跑在FPGA上的。另外,为了对ASIC方案的IP性能进行充分的验证和评估,我们在部分点播、直播方案里也使用了FPGA方案。


LiveVideoStack:我注意到11月北京的LiveVideoStackCon上,火山引擎的团队将重点分享视频质量分析与优化,能否简要介绍下关键的方法?


王悦:在音视频场景中,QoS 变化究竟对 QoE 用户主观体验有多大影响,业界并没有一个公认的答案。大家都知道体验对业务增长有帮助,但是却不知道帮助有多少,核心关注哪些点。

火山引擎视频云团队基于抖音亿级DAU实践,构建了一套能真正体现用户体验优化的指标体系,作为指引技术迭代和演进的指北针,并在质量监控体系和AB测试机制配合下,以云端一体打造音视频极致体验与成本优化。欢迎大家来本次专场更系统化地听取抖音背后的云端一体的视频体验分析体系与优化技术。

 

LiveVideoStack:多媒体业务下一波的增长关键变量是什么?技术在其中还能扮演什么样的技术?


王悦:从技术角度来讲,多媒体在几十年来一直是朝着三个方向持续演进,这三个方向分别是更高清,更交互,更沉浸,我认为未来相当长一段时间也一直会是这个趋势。通过在这三个方向上的持续提升,人们获取信息和沟通协作的信息量、效率、沉浸感不断提升,越来越多的日常生活和企业生产活动得以从线下迁移到线上,甚至在线上也不断衍生出一些新的场景。


首先说更高清,这个相信大家都感同身受,过去几十年我们在分辨率、清晰度方面的观影体验不断的提升,这个主要受益于视频算法、芯片算力、网络基建的持续提升。


更交互,意味更低的端到端延时,更高的即时交互人数,以及更丰富的交互手段,这同样依赖于视频算法、芯片算力和网络基建的持续提升。近几年,借助深度学习和图形渲染方面的技术突破,可以让更多的互动玩法和商业场景成为可能。


高清和交互是沉浸的两个先决条件,另外两个要素是更多自由度和虚实融合。从第一部电影、第一台电视机诞生至今,视频以二维矩形图像时序排列的形式来呈现已经延续了100多年,我们一直以来的视频观看模式,除了切换、快进等操作,其实对视频内容没有什么可互动的空间,也就是说没有自由度。而未来会有更多的视频应用场景提供更多的自由度,实现可探索、可交互,比如,在全景视频中,我们可以体验到更广阔的视野;通过多机位拍摄实现的自由视角技术,我们可以获得多视角体验;而把二者结合,再通过推理、渲染和体感技术,我们可以实现真正的6自由度视频的XR体验,我相信很快会有杀手级的XR应用的出现,给视频的呈现和体验模式带来代际的革新。在与PICO共同探索XR应用的过程中,我们也会把优质的技术和能力沉淀到火山的云XR 解决方案中,希望与更多的业务伙伴一同推进行业的变革。


LiveVideoStack:多媒体技术是否已经触及极限?是否还有收益30%以上的单一技术或技术组合?


王悦:极限理论上是客观存在的,但距离这个极限还有多远又和实际的应用场景相关。此外,如果我们回顾视频编码标准的发展,从H.264到H.265再到H.266,每一代标准做完之后都有人认为到极限了,但是过了一段时间之后旧的标准就又被超越。随着技术的不断迭代升级,对于通用视频场景来说,单一技术想达到30%的增益比较困难;而对特定应用场景的视频,单一技术要做到这个增益还是有空间的。而即使是对通用视频场景,多项技术的组合还是有希望超越当前最新的视频编码标准30%以上,最终产生新一代标准。


LiveVideoStack:我们看下一代视频编码技术,许多专家的工作方向转向与传统编码框架与AI结合。多媒体技术人下一步该如何走?


王悦:智能编码目前是压缩技术的一个研究热点,业界希望能够借助深度学习的方法,突破传统编码框架,对压缩效率实现革命性的提升。当然智能编码是一个新生事物,还有诸如高复杂度等问题亟待解决。我们对智能编码持谨慎乐观态度。我们一方面对智能编码积极探索,提前布局可能的未来;另一方面坚持传统编码的研究,确保根基稳固。更重要的是我们希望能找到传统编码与智能编码的最佳结合点,能够同时发挥两者的优势。从目前我们已有的研究结果来看,将AI引入传统编码可以做到单一技术提升17%+的压缩效率,这说明两者的结合可能会带来重大的突破。


*封面图来自Pexels


▼扫描下图二维码或点击阅读原文
报名「火山引擎」专场活动

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
高清多图!沉浸式带你逛完2022环球影城万圣节惊魂夜错了?美国宣布紧急状态延至明年!拜登会不会让美国付出更沉重代价?火山引擎:ClickHouse增强计划之“资源隔离”MSRA智能多媒体组实习生招聘:计算机视觉、自然语言理解、强化学习多个方向经历了千锤百炼,火山引擎RTC如今怎么样了?| Q推荐以更高水平开放促发展促合作促共赢,在更高起点上放大进博会溢出效应!陈吉宁察看进博会企业展区北京内推 | 微软亚洲研究院智能多媒体算法组招聘算法实习生火山引擎:ClickHouse增强计划之“多表关联查询”抢个小屋一一厨房装修〈一〉一个人的徒步,900公里法国之路+世界尽头:D43~途经圣地亚哥11月互联网专利盘点|华为升级人机交互,爱奇艺发明押韵弹幕凯美瑞40周年,做更高品质、更高级、更超前的自己AI与多媒体机会欲望关键时刻能救命!4岁女童一通电话火场逃生,人民日报点赞:这娃每一步都做对了世界最大活火山,夏威夷莫纳罗亚火山时隔近40年后再次喷发!英特尔和火山引擎携手打造的这套 VR 医疗培训系统,给智慧医疗画好了“一个样板”“吊打” ClickHouse,火山引擎数仓 SQL 查询性能 10x 提升!为什么两座火山会同时喷发?夏威夷的火山怎么那么多?本周孩子们好奇的问题还有…【把世界讲给孩子听】移民留学政策持续向好!加拿大致力于吸引和留住更多留学生交互专业科普 | 未来已来!你真的了解“上天入地”的交互设计吗?遗产(4)在中东赚大钱的老板夫人中间剧场多媒体创意剧 | 《那个小孩》献给曾经的你深度解读火山引擎官方操作系统 veLinux“甲醇制烯烃”反应的机制研究:多尺度动态交互作用 | NSR转录检查点丨创新性强、受SCI期刊青睐;渐由基础研究转向临床应用,由癌症研究转向更广泛疾病探索(2022)面向 OLTP 场景,火山引擎跑在 Kubernetes 上的数据库有何不同?| Q推荐星天娃快乐课堂来啦~更高效的沉浸式互动学习沉痛悼念!我国多媒体学科奠基人,​清华计算机系教授钟玉琢因病去世,享年84岁超高清视频铺开文旅产业新画卷 | 超高清视频应用扮靓美好生活抖音直播世界杯,火山引擎忙坏了龙卷风健康快递 208【2022年】“外泌体”论文倍增,研究已由癌症转向更多疾病;这个热点需要这么追!李一男创办的自游家NV上市:12月起将陆续向用户交付使用2023数字人产业发展解读:数字人作为交互智能新入口,提供更沉浸“在场”体验
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。