音视频技术开发周刊 | 292

现在，所有主要厂商都广泛支持GPU加速的AV1视频编码，基于CPU的AV1编码也在不断提高性能，OBS Studio 29.1增加了支持，能够通过RTMP将AV1和HEVC流传到YouTube。增强型RTMP v1扩展了RTMP协议，以支持较新的AV1和HEVC/H.265编解码器，并在协议中支HDR，但HDR还不支持作为OBS Studio新功能的一部分。这种AV1/HEVC流媒体的YouTube集成目前也被视为测试版。对于流媒体来说，这比H.264要好得多!

https://github.com/obsproject/obs-studio/releases/tag/29.1.0

AI 3D创作来了？“抢饭碗”成真

生成式AI仅仅依靠一张图片或者输入关键文字就能转化成3D模型，这种惊人的创作很快就让人对这个领域产生了一连串的畅想：AI 3D创作真的要来了吗？内容创作者的饭碗还稳吗？以上将从VR内容制作的两个重要环节：建模与渲染进行分析。

高精地图生成技术大揭秘

目前学术界和工业界（尤其自动驾驶公司）均开始研究HD地图生成，也有一些公开的学术数据集以及非常多的学术工作，此外各家自动驾驶公司也在AIDAY上公开分享技术方案。从这些公开信息来看，也观察到了一些行业趋势，例如在线建图、图像BEV感知、点图融合以及车道线矢量拓扑建模等。本文将对相关的学术工作和自动驾驶公司的技术方案进行解读，以及谈谈个人的一些思考。

这两球的颜色是一样的？不，我不信！

为文本到图像的 diffusion 模型添加条件控制

本文提出一种神经网络结构 ControlNet，用来控制预训练的大型扩散模型，并使其支持额外的输入条件。此外，训练 ControlNet 与微调扩散模型一样快，并且模型可以在个人设备上进行训练。如果有强大的计算集群，该模型可以扩展到大量数据。此外，Stable diffusion 等大型扩散模型可以用 ControlNet 增强，以实现边缘图、分割图、关键点等条件输入。

全球数字科技十大趋势、科研实力对比与人才分布

阿里研究院、智谱AI联合发布了《2023全球数字科技技术发展研究报告》。报告基于AMiner科技情报平台的数据，利用文献计量方法，为数字科技研究前沿“画像”，揭示创新活跃程度，在系统、客观的分析方法基础上，总结2023全球数字科技十大趋势。

只有这个爆款社交应用，中国无法复制，为什么？

Discord可能是非常少有的，在美国已经超过百亿美金体量而在中国没有模仿者跑通的 2C 互联网平台级应用。背后的原因，涉及到天时地利人和等多种因素，包括互联网趋势的变化、国内外游戏行业生态差异、社交软件市场差异等等。

音视频通讯QoS技术及其演进

本文从更宏观、更宽泛的角度介绍了QoS的概念和分类，从音视频通讯QoS领域的常用技术到架构的演进过程做了简单汇总。随着音视频通讯新场景的不断涌现，更实时，更高清变得越来越重要，相关技术也会往这个方向倾斜，同时基于大数据分析的QoS相关技术应用将会逐渐渗透。

低延迟流式语音识别技术在人机语音交互场景中的实践

美团语音交互部针对交互场景下的低延迟语音识别需求，提出了一种全新的低出字延迟流式语音识别方案。本方法将降低延迟问题转换成一个知识蒸馏过程，极大地简化了延迟优化的难度，仅通过一个正则项损失函数就使得模型在训练过程中自动降低出字延迟。

新技术让手机摄像头成为高分辨率显微镜

新加坡研究人员开发出世界上最小的LED（发光二极管），可以将现有手机摄像头转换为高分辨率显微镜。新LED小于光的波长，用于制造世界上最小的全息显微镜，为手机等日常设备中的现有相机仅通过修改硅芯片和软件即可转换为显微镜铺平了道路。

动效素材极速交付：腾讯PAG动效组件技术揭秘

音视频码流工具汇总

作者分享了7个在平时开发过程中经常会用到音视频分析工具，可以收藏。

VAT轻量级动画技术

Vertex Animation Texture 顶点动画贴图即VAT，顾名思义是一种将动画烘焙到贴图的技术，该技术能够充分利用图片格式并行存储动画所需数据。

大淘宝技术斩获NTIRE 2023视频质量评价比赛冠军

近日，CVPR NTIRE 2023 比赛结果公布，来自大淘宝音视频技术团队的同学组成「TB-VQA」队伍，从37支队伍中脱颖而出，拿下该比赛（唯一赛道）冠军。大淘宝分享了此次的夺冠方案。

得物直播低延迟探索

直播延迟问题涉及的因素较多，包括推流端和播放端的缓存设置、传输协议、GOP控制等方面。为了解决延迟问题，在实际开发中，为了达到更好的用户体验，我们需要对这些因素进行综合考虑和优化，在不断的实践和实验中寻找最佳方案，通过综合使用这些技术方案，可以更好地提高直播平台的实时性和观看体验。

Google AI团队开发出ISOR，可通过在室内环境中收集数据来改善机器人在户外环境中的行动能力

本文详细说明了ISOR方法的工作原理，该方法使用室内模拟器和基于视觉的位置估计器来捕获机器人在室内和户外环境中的移动数据。最后，作者提供了一些实际案例，展示了ISOR方法在机器人导航和物体识别等方面的应用。

https://ai.googleblog.com/2023/05/indoorsim-to-outdoorreal-learning-to.html

Github 3k+！南科大 VIP Lab 近期开源 Track-Anything | SAM + VOS: 一键视频标注

本文主要介绍了一个新的计算机视觉算法模型Track Anything Model, TAM。该模型的设计灵感来自于已经受到广泛关注的Segment Anything Model, SAM，SAM 是一种在图像分割方面表现出色的模型。然而，SAM 在视频中的分割性能一般表现较差。因此，本文提出了一种基于交互式设计的新模型TAM，旨在实现视频中的高性能交互式跟踪和分割。

如何在十分钟内部署Fastly的下一代WAF

文章介绍了如何在不到10分钟内部署Fastly的下一代Web应用程序防火墙（WAF）。作者提供了一个简单易懂的步骤指南，帮助读者快速部署Fastly的WAF。这些步骤包括创建Fastly账户、配置服务、设置防火墙规则以及测试WAF。文章还提到了Fastly的Dashboard，它提供了实时的安全事件报告和可视化数据，使用户可以更好地了解其网络安全状况。

https://www.fastly.com/blog/how-to-deploy-fastlys-next-gen-waf-in-less-than-10-minutes

Streaming Media East 2023

文章介绍了VVC在在线视频领域的应用和发展趋势。在即将举行的Streaming Media East 2023上，圆桌“Ready for Action”将探讨VVC的应用和优势，并为参与者提供有关如何利用VVC优化其在线视频业务的实用建议。

https://www.streamingmedia.com/Articles/News/Online-Video-News/Jan-Ozer-Talks-VVC-Ready-for-Action-Workshop-Coming-Up-at-Streaming-Media-East-2023-158436.aspx

LiveVideoStackCon 2023上海讲师招募中

LiveVideoStackCon是每个人的舞台，如果你在团队、公司中独当一面，在某一领域或技术拥有多年实践，并热衷于技术交流，欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱：[email protected]。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章