未来已来，大模型无处不在。音视频技术人，你准备好了吗？

2023-04-28 00:04

“音视频领域正面临着一场人机交互体验的革命，是算力、连接、显示整个端到端革命的升级，市场也在呼唤着颠覆式的终端，现象级的内容以及全新的产业生态。”

技术是从什么时候开始改变我们的生活的？

打开电视，电影《瞬息全宇宙》为我们带来了一次视听上的顶级盛宴。飞速旋转的图片，背后是技术的把控和加持；

手机里，“哪几种人将被人工智能取代？”的新闻在不停弹窗；便利店中，一个个由算法排列的货架会记住你对食物的偏好，并带来超高的销售转化，更不必提 ChatGPT 的高效带给人类的恐慌：我们似乎早已忘记，从 2016 年 Alpha Go 打败棋王的那天起，AI 就准备颠覆世界了。

cr. Wei-Shen Wang

疫情的结束和 ChatGPT 的出现让技术人卷得更加疯狂：在现有的市场竞争环境下，越来越多的企业开始专注于降本增效；另一方面，对于不断涌现的新技术、新场景，实时音视频的标准化将引导行业迈向更高的服务质量，而海外业务版图的扩大也将驱动行业迎来新一轮的业务增长。据艾瑞咨询报道：

“

预计到 2024年，实时音视频（RTC）PaaS 市场规模将达到 30 亿元。

”

未来已来，可答案在哪里？我们似乎还没有看到，但在 LiveVideoStackCon 你一定能看到：新的希望。

在刚刚结束的北京站，许多人收获了满满的技术干货，看到了音视频的无限可能。

LVS Con 2022北京站

随着 ChatGPT 的不断迭代，未来是一个模型无处不在的时代，而对于音视频应用和体验的思考，就必须从二维转向三维甚至是更多维，就像被浸泡在了某个空间，周围环绕的都将是未来技术的产物。

LiveVideoStackCon 上海站「沉浸新视界」的主题正是这一想法的表达。

除了技术本身，如何让技术的产物、产品、方案也能沉浸在生活周围，实时支持我们的生活、体验、社交等等，将是此次活动讨论的重点。

那么，你可能想问，上海站到底讲什么？

本次上海站的「沉浸新视界」将会在音频、视频、图像等技术的最新思考与应用实践。除了继续探索音视频技术在不同场景下的融合与发展外，还将增添云游戏、AIGC、IoT、元宇宙和数字化行业案例等时下热门的话题。

以下

是目前可以公开的情报

翟爽

上海广播电视台技术中心

上海东方传媒有限公司转播部副总监

《SMT 在远程制作及虚拟化云端制作的发展实践》

随着流媒体技术、虚拟化技术和云技术的发展，也伴随着疫情等客观因素，远程制作的应用越来越广泛，虚拟化及云端制作也逐渐开始起步，一种全新的转播模式也在被世界各大重要赛事所接受，所认可。远程制作和虚拟化云端制作到底能给客户带来什么，是制作质量的提升，类似于 HDR，4K，8K，三维声给我们带来的全新的视听体验，还是制作成本的大幅减少，这是值得讨论的。

马良

Pinterest 视频架构师

《探讨如何在Pinterest中部署HTTP/3》

本次分享我们将首先介绍 Pinterest 的视频规模和技术栈，不同阶段面临的挑战和演化。接下来介绍 Pinterest 如何定义一个好的视频浏览体验，并建立相关的指标。最后分享 Pinterest 如何部署 HTTP/3，包括 HTTP/3 对视频播放关键指标的影响，以及多 CDN 的问题和解决方案。

文念

腾讯

高级工程师/云游戏后台开发

《面向超低延迟的多路径传输优化》

随着互联网行业的发展，从文字、语音、图片，视频，再到最近两年非常火爆的直播、视频会议等，整个行业是向着流量越来越大，实时性越来越高的方向发展。和行业内要求最高的视频通话场景相比，云游戏的要求更高，延迟从百毫秒级降低到二十毫秒级，码率从 2Mbps 上升到 30Mbps，这对网络传输的实时性提出全新的挑战。

本文分享主要分为 3 个部分，第一部分介绍实时音视频场景下，数据可靠性和网络不确定性对低延迟高码率系统的挑战；第二部分介绍手机端基于 wifi+4g 双链路的传输方案，以及如何在延迟，码率和低流量消耗下求取最佳平衡；第三部分介绍系统架构设计上，如何支撑灵活的多路径传输。

陆其明

瑞声科技

软件开发总监

《“触”手可及的视听新体验——触觉反馈标准及新进展》

人类对美好体验的追求是永无止境的。在多媒体应用领域，特别是在 AR/VR 场景下，如何让人们获得更加沉浸的体验？仅仅在视觉和听觉两个方向努力是不够的，还需要触觉、嗅觉、味觉… 本次分享侧重于触觉的介绍，而行业内对触感的应用价值和触感品质的认知是不够的，相关标准的缺失也阻碍了技术的快速普及。

本次分享分三个部分：第一部分介绍触觉的生物学原理、应用价值以及触感设计和表达方法；第二部分介绍触感的软硬件生态现状，以及相关的应用开发技术，力求全平台覆盖；第三部分介绍触感相关国际标准的最新动向和进展。通过以上三个部分的内容，期望大家对触感开始有基本的认知，认可其价值，并且能够快速上手，共同促进应用端的繁荣。

付涛

中国移动智慧家庭运营中心

人工智能专家/多媒体通信算法专家

《家庭场景大模型技术与应用实践》

智慧家庭作为一种新的生活方式，受到越来越多的关注，其核心在于人们渴望从繁琐的家居操作中解脱，把更多精力投入到生活中的精彩和感动中。

对话陪伴，家庭安防，家庭教育，家庭健康，家庭娱乐等模块是智慧家庭的重要组成部分，其中涉及到自然语言处理，计算机视觉，语音处理等多模态复杂 AI 理解和生成技术，为解决人们对智能要求的不断提升，需要利用大规模预训练大模型所涌现出的通用智能，并针对性的做场景化微调适配；具体的，我们利用千亿参数的大模型，并结合家庭场景进行指令微调和对应算法优化，赋能了亿级的智慧家庭用户，其中智能对话，智能安防，家庭教育等覆盖率达到了千万级以上；

本次分享分为 4 个部分，第一部分主要是介绍家庭场景的核心业务，同步引入算法应用的关键问题，第二部分主要是回顾行业大模型的发展现状和主要算法架构，第三部分是我们在家庭场景下大模型的关键技术研发，第四部分主要是大模型的应用实践。

以上只是本次分享内容的冰山一角，后续更多内容细节我们将随时更新。在这里，你不仅可以与业内大佬们进行技术上的心得交流，还可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战，与对未来规划的深入解读。绝对值得期待！

LVS Con 2022北京站

心动了吗？7 月 28-29 日，上海龙之梦大酒店等你！最后两天的八折优惠实实在在，扫码即可购票！心动不如行动！

8 折购票通道倒计时两天

点击“阅读原文”即可购买

最后，我们期待你也有关于“沉浸”式的音视频话题，直接联系我们，分享给大家吧！

LiveVideoStackCon 2023上海讲师招募中

LiveVideoStackCon是每个人的舞台，如果你在团队、公司中独当一面，在某一领域或技术拥有多年实践，并热衷于技术交流，欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱：[email protected]。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章