火山引擎首次发布自研视频芯片,“抖音同款”走向千行百业
澎湃新闻记者 王潇雨
无论你是不是一个短视频爱好者,视频化的场景也已经覆盖了你生活的方方面面。
QuestMobile数据显示,截止到2023年5月,中国移动视频行业整体用户规模达到10.76亿,月人均时长达到64.2小时。即便没有这些数据统计,日常的生活已说明了一切。
早上到公司后,你一边上电梯,一边打开手机观看汽车的“自动泊车”是否顺利;10点的第一个会议需要通过视频与外地的同事进行沟通;午休时间你和暑假在家的孩子通了视频电话,叮嘱他不要忘记下午3点的视频课;晚上到家后,你迅速滑了一下常去的几个直播间,看看是否有一些价优的商品可以购入。
视频化的时代来临,催生了用户以及平台对于视频转型的需求,也催生了对视频云的需求。艾瑞咨询的数据显示,2024年中国视频云服务整体市场规模将达到924亿元。一个千亿级的赛道必然吸引各路人马的加入,也将加速视频云的发展。这其中,“抖音现象”的基石——火山引擎视频云备受业内关注。
火山引擎作为字节跳动旗下云服务平台,最初主要服务于字节跳动内部产品,而随着内部产品覆盖面、影响力的扩大,火山引擎的技术也愈发成熟,近两年技术逐步外溢到B端市场,惠及千行百业。
NVIDIA英伟达开发与技术部门亚太区总经理李曦鹏(左)和火山引擎视频云架构技术总监王悦(右)共同宣布开源BMF多媒体处理框架
8月22日,火山引擎视频云&AIGC大会以“视象新生”为主题,发布了自研的视频编解码芯片,并携手英伟达发布多媒体处理框架BMF(Babit Multi-Media Framework),与行业伙伴共同探讨视频技术的发展将如何助力不同行业实现业务创新与增长。
更高清,更交互,更沉浸
在信息爆炸的时代,没有人愿意等待屏幕上那个不断旋转的圆圈,用户的流失是以毫秒为计算单位。
一方面,“更高清、更交互、更沉浸”的极致体验成为用户需求常态;另一方面技术突破天花板见顶,技术边界难以打破,行业在共同突破视频云上限。火山引擎视频云发布的解决方案之所以备受关注,与其在抖音上的实践不无关系。
2018年,当抖音DAU规模突破1亿以后,在视频播放、画质、交互、性能等方面遇到了非常多的挑战,也正是从那时候起,字节跳动通过解决业务发展过程中的各种问题,沉淀出一系列的音视频技术能力。
火山引擎的“出圈”不得不提2022卡塔尔世界杯直播。本届世界杯直播中,抖音免费开放了超高清模式,且完全无片头广告。“良心”、“靠谱”、“超高清”等评价出现在各大社交媒体上,大批“自来水”的涌入,让抖音在此次世界杯赛事期间累计支持了106亿人次的直播观看,决赛的观看人数更是达到了2.3亿。
支持2.3亿不同客户端、不同屏幕质量的用户高清无卡顿地在同一时间看到比赛结果离不开一个重要工具——转码芯片。
视频转码本质上是先解码再编码,视频解码相当于把接收到的压缩包重新解压为一帧帧的画面,视频编码则是把每一帧画面压缩打包便于传输,目的是让不同终端的用户提供同样高清画质的视频。
此次大会发布的火山引擎自研视频编解码芯片。经验证,其压缩效率相比行业主流硬件编码器提升30%以上,可应用于视频点播、直播、图像压缩、XR等业务场景。与具备通用计算能力的CPU芯片相比,火山引擎自研芯片仅支持视频编解码任务,因此能够在视频处理场景具备更高的计算密度。一台芯片服务器的转码能力与百台CPU服务器相当。
简单来说,在4K/8K超高清、高帧率场景中,相对软件编码,火山引擎这款视频编解码芯片能实现低延时的高质量转码,针对观看人数比较小的中长尾直播,可以节省大量算力成本。用户端的感受则是更高质的画面和更低延时。
火山引擎硬件编码能力此前在世界编码器大赛MSU中夺得多项第一,达到行业领先水平。此次自研视频编解码芯片的发布,有望大幅提升4K超高清应用场景的编码速度,保证较高的视频主客观质量,大幅降低4K编码计算成本,推动更多4K应用的不断普及。
普惠开源,加速视化新进程
当下,视频不仅是人们日常生活中重要的娱乐方式之一,也是信息传递、商业连接、知识传达最主要的渠道之一,同时在视频质量、内容丰富性、交互性等方面已经达到了新的高度,我们已经进入了一个“超视频时代”。
当视频化成为应用标配后,视频处理框架所面对的场景和需求越来越多样化和复杂化,同时对计算性能和异构计算资源的运用提出更多的要求。快节奏的创新速度迫切的期望框架有强大的能力帮助用户把各种能力和方案优势互补、协同工作、快速落地。火山引擎携手英伟达的基于亿级DAU实践的下一代视频处理架构BMF出现了。
从大会展示来看,BMF能够提供简洁易用的跨语言接口、灵活的调度和扩展性,以模块化的方式动态扩展、管理和复用视频处理的原子能力,以graph/pipeline的方式构建高性能的多媒体处理链路或者以单独处理能力的直接调用实现工程集成,帮助多媒体用户便捷、高效地将项目落地于生产环境。
在业务落地的过程中,BMF框架的功能多样性、易用性、兼容性、稳定性和性能得到了充分的打磨,可以对从生产到消费的全链路视频场景进行支持,包括点/直播转码、云编辑、移动端后处理等,特别是它支持大量视频AI的应用场景,比如视频增强、视频质量分析等。
NVIDIA英伟达开发与技术部门亚太区总经理李曦鹏表示,NVIDIA和火山引擎始终将把BMF打造成新一代视频处理的基础平台作为目标。“未来,我们会与火山引擎保持合作,听取社区及用户的意见,在NVIDIA最新的软硬件平台上进行迭代,继续完善BMF框架。”
基于抖音集团的大模型实践沉淀,火山引擎也在一直探索AI与视频云的融合。比如“极致超清”技术,就是基于人眼的主观感受最优为基准的AI前处理方案,降低播放码率,实现整体降带宽,单路流降低15-35%,该技术可以应用于大型活动直播、电商直播间等场景,提升画质体验;又比如“AI修复”技术,通过利用AIGC大模型强大的生成能力,对不同损伤情况的老片影片进行修复,从清晰度、色彩、流畅度、瑕疵等方面对百部港片进行全面的画质提升。
字节跳动视频架构负责人、火山引擎视频云架构技术总监王悦
值得一提的是,BMF目前已经全面开源。包含BMF框架层整体开源、9个开箱即用案例、20+API调用范例,以帮助开发者低成本的构建视频应用。字节跳动视频架构负责人、火山引擎视频云架构技术总监王悦表示:“开源以后,我们计划持续开源更多核心能力,完善解决方案,包括支持更多异构硬件、更多原子能力以及移动端支持等。希望我们的愿景早日达成——面向全球,加速视频化进程,共建视频开发生态。”
“十四五”规划把开源纳入顶层设计,开放互联也是火山引擎云服务的重要发展理念。通过更多人的参与,技术革新会得到加速,未来商业也有了更大想象空间。数字技术不仅是“某朵云”的基石,也是未来社会生活场景的基石。
携手千行百业共破“增长难”
视频云自诞生之初便被赋予了重要使命——让企业“视频化”的代价和成本变得更低。相比采用视频云服务,自行搭建直播平台的成本以及后期的维护费用要高得多,周期也比较长。在视频云的助力下,企业在直播化、视频化的过程中,可以有效降低成本、提升效率。
然而,随着视频化在各行各业的不断深入和渗透,应用场景和需求也在呈现碎片化、复杂化的趋势,视频云方案场景化弱是当下的另一边界。因此,此次大会的另一个核心议题,就是与行业代表们共同探讨边界融合的实干方案。
在互动娱乐场景和营销直播场景上,抖音已经给出了答案。例如在基础直播的基础上,火山引擎视频云推出了互动直播营销解决方案,从数据结果上来看,抖音互动直播日均场次超210万场。此外,火山引擎视频云也在PICO的VR业务中接入互动直播连麦,接入之后的人均看播时长也增长了15.4%。
除了在泛互联网领域不断地进化,火山引擎视频云也在更多的行业中不断地积累和实践。以智能驾驶为例,在车载视频监控、哨兵模式、远程理赔、快递到车等场景,远程画面可以实时呈现,延时可以低至90ms;在远程辅助泊车、末端物流应急接管、高危环境远程作业等场景,控制指令可实时响应,在丢包80%网络下也可以保证信令100%到达。
截止到2023年,火山引擎视频云依托其技术能力和大规模的行业应用实践,不仅覆盖娱乐,社交、电商、游戏等泛互联网场景,也深入到了传媒、金融、汽车、教育等更多的行业场景,与上千家不同企业共同打磨和沉淀音视频产品方案。
火山引擎总裁谭待表示,在营销、空间、商业和知识的交互体验都在发生变化的视频化时代,视频云技术因其从视频生产,处理、传输、消费的全链路技术能力被赋予了重要使命。随着AIGC、XR等技术的兴起,新技术与视频云的融合将带来更多创新和价值。
从二维到三维,从人工到智能,技术的飞速发展让物理世界与虚拟世界的壁垒不断被打破。“视频云”不断升级的意义在于,抓住更多想要迈进视频时代伙伴的手,共同寻找确定的未来。
微信扫码关注该文公众号作者