AI与多媒体

2022-10-31 00:10

LiveVideoStackCon 2022 音视频技术大会北京站将于11月25日至26日在北京丽亭华苑酒店召开，本次大会将延续【音视频+无限可能】的主题，邀请业内众多企业及专家学者，将他们在过去一年乃至更长时间里对音视频在更多领域和场景下应用的探索、在实践中打磨优化技术的经验心得、对技术与商业价值的思考，与大家一同分享和探讨。

AI与多媒体

AI与多媒体似乎有着一种天然不可分割的紧密联系，随着近年来深度学习、视觉算法等的不断突破，AI正引领多媒体中众多相关技术领域迈向更加广阔的发展道路，影响图像视频分析、处理，视频编解码、网络传输等关键技术，使得多媒体逐步走向融合，智能化的媒体时代。本专题将一同探讨AI与多媒体的最新发展动态。

# 出品人 #

杨建刚

Producer

艺术宝

技术总监

负责集团音视频，音频算法，音乐算法，视觉算法，NLP，推荐算法，多模态，XR、元宇宙等多媒体AI科技相关算法以及工程化方向的研发与产品落地工作。艺术宝集团旗下拥有美术宝、音乐宝等品牌，以科技为核心驱动力，致力于打造以家庭为单位的全球终身艺术消费平台，使命是“用科技推动艺术普及”。

# 讲师与议题 #

Topic1

基于AI和NPU的Codec变革

伴随通信容量（包括5G以及千兆有线网络）的发展，高带宽为更多用户接入超高清视频提供了可能。但是随着用户数量的增加，高质量的压缩方案也是变得更迫切，而边缘计算平台的性能提升也为解码增强提供了算力支持。AI算法的进步则提供了更丰富的计算方式。

本次分享包括三个部分：第一部分介绍Codec在不同场景下的需求，以及使用基于混合编码策略的困境；第二部分重点分析AI-Codec的发展思路，带来的收益通过修正编码参数、修复编码缺陷或者完全端到端方法的可行性以及部署困境；第三部分将讨论从算法到NPU硬件加速或者芯片化设计的一些可能形态。通过这些介绍，与各位同行讨论“云”和“端”结合的硬件架构与性能提升方法。

内容大纲：

1. 经典编码标准在应用中的困境

2. AI-Codec的发展现状，益处与困境

3. AI-NPU-Codec的可能形态探讨

Topic2

兼容并蓄，全平台视频模板技术创新及应用

在视频内容生产过程中，效果的复用可以极大简化生产流程，提高生产效率。美摄多平台的视频模板技术方案不仅可以在包装效果上实现复用，而且配套使用美摄自研的多端工具，可以让用户根据自身使用场景，在移动端、PC端、web端之间实现工作方式的自由切换，随时随地完成视频内容生产。同时美摄模板支持以插件的方式实现对AE效果的转化，进一步拓展了使用范围。

内容大纲：

1. 基于美摄多平台视频技术实现的视频模板方案

2. 通过AE插件转化视频模板技术探索

3. 美摄多平台视频模板技术落地实践

Topic3

海量视频的系统化高效处理构想和算法实践

随着短视、直播、智慧城市、5G等的快速发展，视频内容遍地开花，五花八门，相应的处理需求也多种多样。如何能高效地应对这些视频处理需求？需要数据处理的系统管理，底层计算能力，以及算法研究等多方面协同努力。
本次分享主要分为三个部分：第一部分阐述对视频处理的需求理解和归纳；第二部分介绍沐曦应对视频处理场景的GPU产品；第三部分介绍视频系统处理的解决方案构想和实践。

内容大纲：

1、视频处理的需求理解和归纳；
2、智能编码，视频超分，语音提取字幕，视频结构化分析等
3、沐曦高性能GPU产品简介；
4、视频系统处理的解决方案构想和实践；

Topic4

ORTC与AI互相成就之道

随着计算规模的增大及对计算精度要求的提高，端侧AI运算已经不能满足高精度、高算力要求的应用场景，很多AI处理算法就要搬到算力强大的云端处理。而要达到近乎等同于端侧的效果，则需要在端云传输实时性、稳定性、抗弱网、分布式、集群等技术做深入优化，从而更好的发挥云端优势。
本次分享主要内容包括与RTC紧密结合的AI应用场景，ORTC在低延时、抗弱网所做的策略保证，媒体服务器如何实现AI算法解耦、如何保障大规模AI处理的有序进行，以及如何进行有效的预警及事后取证。

内容大纲：

1. ORTC简介
2. ORTC在实时通信技术中实践案例
3. AI及其在实时通信的应用场景
4. AI助力ORTC技术演进
5. ORTC成就AI落地的探索展望

Topic5

人工智能和视觉技术赋能新一代多媒体发展的实践

随着生活水平的持续提升，人们对于视频媒体的体验有了更高的需求和期待。如何提供更高质量的视频质量和沉浸式的音视频体验成为了新一代多媒体发展的挑战。不断提升的人工智能技术和计算机视觉技术为突破这些挑战提供了机会。

本次分享将分为三个部分：第一部分介绍人工智能技术在视频修复和超高清视频再生产上的赋能和应用实践；第二部分介绍人工智能和视觉技术在新一代多媒体采集和生产上发挥的关键作用；第三部分进一步分享人工智能和视觉技术在VR、XR拍摄和呈现上的技术探索。

内容大纲：

1. AI在视频修复和超高清视频再造的技术和应用方案

2. AI在采集设备提升上的技术和应用方案

3. AI在3D采集和呈现上的技术探索

Topic6

CV-CUDA: 高性能图像处理加速库

在深度学习领域，图像前处理和后处理作为非常重要的组成部分存在于众多应用之中，例如内容理解，视频特效，图片/视频检索等。传统的方案中图像前后处理会在CPU上进行，一方面会占用CPU的资源，另一方面性能较差，容易成为整个流水线的瓶颈。因此NVIDIA和ByteDance联合开发了CV-CUDA图像处理加速库，有效提升了图像处理整体效率。

目前此方案不仅在字节跳动内部业务成功落地，而且也集成到火山引擎，有需要的业务可以去上面体验。本次分享主要分为两部分，第一部分介绍CV-CUDA的特性和基本框架，第二部分介绍CV-CUDA在字节的典型使用案例。

内容大纲：

1. CV-CUDA特性和基本框架

2. ByteDance典型应用案例

Topic7

B站视频云画质与窄带高清AI落地实践

视频赛道卷到下半场，一定会面临体验与成本的对抗，尤其是在行业大环境“过冬”的背景下，想要在有限带宽下获得最佳的画质观感变得异常具备挑战性。从视频云业务场景的视角来看，如何有效解决cross-domain问题、如何突破低业务延迟下的算力瓶颈、如何提升单位码字承载的有效信息量，成为我们在实践过程中的应用范式。

本次分享将分为两个部分：一是介绍B站视频云云端转码中的画质提升链路。重点介绍我们基于画质修复观点下的视频超分技术在点播业务中的应用落地，以及在4K@60fps直播场景下的实践；二是介绍B站窄带高清AI所采用的低秩重构方案是如何做到在视觉无损的条件下进一步压缩18%以上码率带宽的。

内容大纲：

1. B站视频云画质提升链路

2. 4K超分在点播/直播业务中的落地实践

3. 窄带高清AI如何做到视觉无损下的极致视频压缩

↓ 点击「阅读原文」立即报名！

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章