音视频技术开发周刊 | 264

2022-09-25 04:09

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

为什么参与LiveVideoStackCon 2022 北京站

距离2022年11月4日至5日召开的LiveVideoStackCon 2022 音视频技术大会北京站还有一个多月的时间，在我们紧锣密鼓地筹备下，又有一波精彩的演讲内容、新颖的互动环节、神秘的幕后团队等信息上线啦。现在，马上开启剧透模式，让大家一睹为快！

⏰ 活动时间：2022年11月4-5日

🌏 活动地点：北京丽亭华苑酒店

视频中为什么需要这么多的颜色空间？
在视频处理中，我们经常会用到不同的色彩空间：非线性 RGB、线性 RGB、YUV、XYZ……为什么需要这么多的色彩空间呢？为什么在FFmpeg中会有 color_space，color_transfer，color_primaries 等一系列的颜色属性呢？这些术语之间究竟隐藏着什么秘密？

对话腾讯陈仁健：聊一聊腾讯PAG动效解决方案的生产能力与开源情况
“PAG到目前为止已经迭代了5年，经历了四个大版本。最新的PAG4.0版本在今年年初开源…” PAG由腾讯研发，是一套完整的动效工作流解决方案，提供从AE(Adobe After Effects)导出插件，到桌面预览工具PAGViewer，再到各端的跨平台渲染SDK。

音视频开发之旅（29) 算法序列 - 散列表
今天我们来对散列表（哈希表）进行学习实践，了解散列表的实现和原理，散列表解决冲突的常用方法，代码实现散列表查询等。

OpenGL 实现视差贴图与 UE 中的凹凸贴图偏移
UE 中提供了凹凸贴图偏移的贴图来实现修改 UV 坐标达到提升表面细节，使材质产生深度错觉。凹凸贴图偏移是 UE4 中的术语，其实就对应于 LearnOpenGL 网站上的视差贴图。

音视频开发进阶｜第六讲：色彩和色彩空间·上篇
在前面几篇文章中，我们完成了音频相关基础知识的学习，从今天开始，我们要暂别音频，继续学习视频相关基础内容。

FGST: 清华提出首个视频去模糊的Transformer
视频去模糊是底层视觉和图形学领域一个重要的任务，用于从模糊视频序列中恢复出清晰的视频，在手持相机、目标跟踪、自动驾驶等任务上具有广泛的应用。

音视频开发进阶｜第四讲：音频自动增益控制 AGC
在之前的文章中，我们已经接触了两个重要的音频前处理模块 – 回声消除 AEC 和噪声抑制 ANS。至此，音频前处理三剑客中，就只剩下一位 – 音频自动增益控制 AGC（Automatic Gain Control）还没有介绍，今天我们就来认识一下它。

人耳如何对声音进行识别
人们常说的听声辨位就是人们在听到声音以后，能辨别出声音是从哪个方向传播过来的，而声音在不同环境下传播的又不一样，这就是人耳对声音方向感的作用。

Android FFmpeg系列07--音画同步
这篇文章我们就来简单的聊聊音画同步的那些事，音画同步是指播放器正在渲染的每一帧画面和正在播放的每一段声音都能严格对应起来，不存在视觉和听觉可以分辨出来的差异。

QUIC特性之连接迁移和队头阻塞消除
本文主要介绍QUIC的连接迁移、队头阻塞消除、UDP和TLS性能特性。

YuZu：神经网络增强的容积视频传输
本次演讲由 Anlan Zhang 带来，他介绍了 YuZu，一个利用神经网络对于容积视频进行高效在线传输的系统。

RTC 弱网对抗之冗余策略
带宽分配和冗余策略是弱网对抗核心模块，随着算法的演进迭代，我们能够保证线上大部分场景的优质音视频体验。对于一些小概率或特殊场景，如突发网损、拥塞恢复、PPT 翻页等，我们还引入了多种冗余策略，来兼顾流畅、恢复效率和低延时的需求。

RTC 技术的试金石：火山引擎视频会议场景技术实践
视频会议场景一直被认为是 RTC 最具挑战性的场景，一方面，它对抗弱网、低端机适配、降噪、多人上麦等都有极高的要求，对 Web 端的要求也远高于其他场景；另一方面，有很多孵化自会议场景的技术能力最终都被复制到了其他场景。

音视频问题--VLC支持RTSP over TCP
昨天收到前端反馈：客户现场碰到一个问题，客户发起RTSP监控时候PC VLC会断掉的奇怪现象，而我司C3设备却不会，想知道具体的原因是什么？

Chrome低调的支持了HEVC
低调！在没有任何公告或更新的情况下，Google 修复了 Chrome 中的一个对视频流媒体行业具有重大影响的错误：终于启用了对 HEVC/H.265 视频内容的自适应流媒体的支持！
https://bitmovin.com/google-adds-hevc-support-chrome/

音视频编解码--云游戏之Non-B-Frame技术浅析
最近两天羊了个羊非常火爆，而关注的LiveVideoStack公众号也正好推了一篇文章《云游戏全面解析》，看完之后，突然想起上半年在一个音视频学习社群里，有位学友推了一篇PDF文档《云游戏白皮书》，有好多点讲解的还是不错的，自己也算开拓眼界了。其中有一个点比较感兴趣，无B帧编码。

用于UGC视频处理的ASIC-RDX技术与算力-压缩效率优化
演讲主要展示了Facebook使用ASIC硬件编码与RDX技术结合的方式，并且可以确保在满足编解码器支持和可用算力的约束条件下，最大化为视频传输的压缩效率。

基于贝叶斯推断的快速划分算法
本文介绍一篇发表于2018DCC的论文，该论文针对多码率视频编码场景提出了一种基于贝叶斯推断的快速划分算法，本文中将该算法应用于AV1中，取得了较好的效果。

Stability AI 开源图像生成模型 Stable Diffusion
Stability AI 对外发布了 Stable Diffusion 的预训练模型权重，这是一个文本至图像的 AI 模型。根据文本提示，Stable Diffusion 能够生成逼真的 512x512 像素的图像以描述提示中的场景。

开源模块：读取多超声波传感器
在制作智能小车、自主导航小车的过程中我们通常会使用超声波来弥补小车的测量盲区，或者直接设计基于超声波的避障小车。这其中都涉及到多个超声波模块的读取。

医学图像开源数据集汇总
本文汇总了一些开源医学图像数据集，附下载链接，一起学习一下吧。

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

紧抓多媒体生态趋势，将浏览器、WebAssembly和Rust等热点结合
熟知播放器工作原理，为实现商业化H.264/H.265播放器打下坚实基础
课程包含图文、代码、视频，降低学习门槛
李超精准讲解，及时详细解答

↑识别上图二维码或点击上图立即订阅。

EfficientNet、ShuffleNet、NFNet…你都掌握了吗？一文总结图像分类必备经典模型（三）
本文将分 3 期进行连载，共介绍 15 个在图像分类任务上曾取得 SOTA 的经典模型。本期介绍：Residual Attention Network、ShuffleNet、MnasNet、EfficientNet、NFNet。

CICO : 用于视觉分析任务的内容感知图像压缩框架
本演讲介绍了一种内容感知图像压缩优化框架 CICO，实现视觉分析任务的低带宽和低延迟的卸载(offloading) 。

综述：图像滤波常用算法实现及原理解析
图像滤波是一种非常重要的图像处理技术，本文详细介绍了四种常见的图像滤波算法，并附上源码，包括自适应中值滤波、高斯滤波、双边滤波和导向滤波。

2D矢量动画在B站的探索与实践-矢量图形的描述
矢量动画通过描述图形的绘制行为，来存储图像。这样的存储方式，在资源大小上有着天然的优势，同时矢量动画的绘制可以根据场景的分辨率进行实时的缩放与抗锯齿，较好的解决帧动画在缩放大小时的走样问题。

万字长文详解静态图和动态图中的自动求导机制
自动求导（AutoDiff）机制是当前深度学习模型训练采用的主要方法，而在静态图和动态图中对于自动求导的处理是不一样的。

多传感器融合定位：基于滤波的融合方法
SLAM 后端的优化方式大体分为滤波和优化。近些年优化越来越成为主流，在学习优化之前，掌握滤波的工作原理也十分必要。

机器视觉目标识别及案例分析：如何实现快速精准定位引导和计数识别？
随着机器视觉技术的快速发展，传统很多需要人工来手动操作的工作，渐渐地被机器所替代。很多特征通过传统算法无法量化，或者说很难去做到的，但深度学习可以。特别是在图像分类、目标识别这些问题上有显著的提升。

Ctrl-VIO：基于连续时间的卷帘相机视觉惯性里程计方案
视觉惯性里程计（VIO）可以估计有尺度的6自由度相机位姿，其中，相机可以根据快门的不同分为全局相机（global shutter）和卷帘相机（rolling shutter）。与全局相机相比，卷帘相机通常成本较低，已广泛应用于智能手机等消费级电子产品。

无需多视图！Google重磅升级NeRF：仅需一张平面图即可生成3D模型
最近，来自英属哥伦比亚大学，西蒙菲莎大学和Google Research的研究人员发表在CVPR 2022上的一篇论文中提出了一个全新模型LOLNeRF，对于同一类物体来说，仅需单一视角即可训练NeRF模型，而无需对抗监督。一旦共享的生成模型训练完毕，模型即可提供近似的相机姿态（camera poses）。

计算机视觉四大基本任务(分类、定位、检测、分割)
本文旨在介绍深度学习在计算机视觉领域四大基本任务中的应用，包括分类、定位、检测、语义分割、和实例分割。

简单易懂的讲解深度学习（入门系列之八）
神经网络也许是计算机计算的将来，一个了解它的好方法是用一个它可以解决的难题来说明。这篇分享讨论了神经网络的基本功能以及构造神经网络的方法，这样就可以在编码时应用它们了。

收藏 | 深度学习常用损失函数的基本形式、原理及特点
本文将介绍机器学习、深度学习中分类与回归常用的几种损失函数，包括:均方差损失、平均绝对误差损失、Huber 损失、分位数损失、交叉熵损失函数、Hinge 损失，主要介绍各种损失函数的基本形式、原理、特点等方面。

机器学习基础：如何防止过拟合
本文对几种常用的防止模型过拟合的方法进行了详细的汇总和讲解。

梯度下降的可视化解释(Adam，AdaGrad，Momentum，RMSProp)
本文用了大量的资源来解释各种梯度下降法（gradient descents），想给大家直观地介绍一下这些方法是如何工作的。

【机器学习】经典的机器学习200道面试题（附参考答案）
本文总结了往年BAT机器学习面试题，干货满满，值得收藏。想要入职大厂可谓是千军万马过独木桥。为了通过层层考验，刷题肯定是必不可少的。这份刷题宝典拿好哦！

【保姆级教程】个人深度学习工作站配置指南
工作原因一直想配置一台自己的深度学习工作站服务器，本文是我在组装工作站过程中记录的详细操作流程，供有类似需求的同学参考~

基于单目和低成本GPS的车道定位方法
我们提出了一种低成本的车道级定位解决方案，使用基于视觉的系统和低成本GPS实现高精度的车道级定位，实验表明，所提出的方法实现了良好的车道级定位精度，优于仅基于GPS的解决方案。

自动驾驶惯性导航技术你了解多少？
惯性导航一般集成在GPS设备中，都是由供应商集成，那在这里有什么讨论的必要呢？理解惯性导航的工作原理，能很好地帮助我们做基于车身的航迹推算。

自动驾驶的“天眼”！聊一聊高精地图领域中所有主流的制作方案
论文主要回顾了利用2D和3D地图生成的最新高清地图生成技术，介绍了高清地图及其在自动驾驶中的用途，并给出了高清地图生成技术的详细概述。

智能驾驶-AI芯片的算力研究
本文将从AI芯片最基础的算力资源及算力大小、计算的角度，揭开自动驾驶AI芯片的面纱。

自动驾驶商用之路，L4领先一步
在2022世界人工智能（AI）大会开幕式上，李彦宏表示：L2后率先进入商用的可能是L4，而不是L3。一时间，L4级别的自动驾驶被推上了风口浪尖，那么未来是完全自动驾驶率先上路，还是辅助驾驶循序渐进达成这一目标呢？

自动驾驶系统的传感器标定方法
传感器标定是自动驾驶的基本需求，一个车上装了多个/多种传感器，而它们之间的坐标关系是需要确定的。

创建沉浸式 VR 视频体验
本文开发了一种压缩多平面图像（MPI）的新方法，可以在 PC 端上实时播放，并为用户提供无需头戴设备的沉浸式观看视频体验。

计算机视觉：元宇宙底座AI技术
本文以元宇宙概念及核心技术为引子，介绍了计算机视觉技术及其产业链，从宏观层面上展望了计算机视觉技术的发展，希望能对各位读者有所帮助。

迪士尼开发无需佩戴眼镜的AR游乐设备
据报道，迪士尼主题乐园正在开发一款增强现实技术，让游客无需佩戴AR眼镜就能开启AR之旅。迪士尼一直在积极进行元宇宙布局，其加速器项目资助了多个元宇宙项目。该公司目前正在发展几类创新技术，其中多项涉及AR。

基于特征点检测的人脸融合技术
所谓人脸融合：给定输入人脸A、B，输出的人脸C具有A和B共同的特征，是一张全新的人脸，也可以说是一张假脸。人脸融合的过程主要有三步：人脸特征点定位，人脸融合，人脸交换。

计算机视觉项目-人脸识别与检测
人脸识别作为一种生物特征识别技术，具有非侵扰性、非接触性、友好性和便捷性等优点。人脸识别通用的流程主要包括人脸检测、人脸裁剪、人脸校正、特征提取和人脸识别。

人脸关键点的应用场景及重难点解析丨Dev for Dev 专栏
人脸检测、人脸关键点检测，是计算机视觉的基础算法。许多酷炫应用背后，例如美颜、贴纸、人脸驱动 avatar，是依赖着人脸检测、人脸关键点检测的算法。

活动推荐

【北京站专场】探索娱乐视听技术与体验的新乐章

QQ音乐的全新一代听歌识曲技术如何在保持技术领先的现状下创新和突破？QQ音乐的银河音效如何突破传统DSP思路，进行技术升级，并形成高活跃的音效社区？全民K歌的唱歌评分如何全面升级？智能品鉴如何从多维度挖掘优质歌手和UGC作品给用户带来收益？元宇宙大背景下，虚拟世界和音乐如何结合？Music XR Maker 如何用AI驱动的方式打造一场虚拟偶像音乐表演？本专场腾讯音乐的天琴实验室及银河音效团队，将以音频为核心与大家一同探讨多媒体技术的现状、实现与思考，希望促进行业间的交流、探讨以及合作。

⏰ 活动时间：2022年11月5日 14:00-17:55
🌏 活动地点：北京丽亭华苑酒店

Devfest2022上海站 - Web3 & 元宇宙分会场，9月25日下午

由 Google 发起，全世界各地谷歌开发者社区组织运营的盛大活动 DevFest 正在世界如歌如火如荼的展开，GDG Shanghai 自成立以来已经连续成功举办了 12 届 DevFest，今年将是特殊的一年，线上线下同步互通直播，线上线下预计共将影响开发者人数超过100万。

活动：Google DevFest 2022 上海站
整个会议：9 月 25 日 08:30-18:00
Web3分会场：9 月 25 日 13:30-17:30
地点：上海市浦东新区-新金桥路1599号，东方万国企业中心（下沉式广场）
报名：点击『免费报名』参与本次活动

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章