音视频技术开发周刊 | 261

2022-09-04 04:09

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

今年北京的秋天似乎比以往来得早了些，即将在11月4日至5日召开的LiveVideoStackCon 2022 音视频技术大会北京站也在紧锣密鼓地筹备中，可以预见，11月的音视频江湖将再起波澜。本次大会将延续「音视频+无限可能」的主题，继续挖掘音视频技术与不同行业、场景、业务的深入结合，并新增了《新风口：元宇宙入局之路》、《AI与多媒体》专题。值得期待的是，我们也首次将音频技术与品牌完全整合在一起，邀请了腾讯天琴实验室和银河音效团队，以专场的形式将腾讯音乐的音频能力完整地、系统地带给大家。希望新的形式、新的内容能带给大家新的体验。同期，更多品牌专场内容还在紧张的准备中，敬请期待！

七牛云QRTC背后的质量提升实践
QRTC产品作为流媒体流量入口之一，背后有一套完整的支撑体系。而在整个体系中，核心是要保障业务场景的稳定运行，保障音画质量的正常展现，那么业务与音画质量提升的实践方法有哪些呢？

基于WebRTC的开源低延时播放器实践
直播带货、游戏主播，亦或者是大型网课，在直播中良好的网络环境与低延时是优质交互体验的关键。在这个各家云服务厂商标准不统一的年代，如何让低延时直播更加便捷稳定呢？

腾讯云实时音视频出海技术实践及落地
互联网出海热潮涌动，社交娱乐、跨境电商、在线教育等产品与音视频技术密切相关，如何在纷繁复杂的基础设施和网络条件下提供高质量的音视频服务，是出海产品和云服务商面临的共同挑战。

视频会议、WebRTC及RingCentral解决之道
最近几年视频会议产品得到了极大的关注和快速的发展。产品的用户体验，功能和质量决定了产品能否在竞争中脱颖而出。而如何选择一个好的架构和解决方案是最为关键的因素。

音视频开发之旅（25) 算法系列 - 堆排序
前面我们学习实践了冒泡排序和快速排序，这篇我们继续学习另外一种排序算法：堆排序，为了搞清楚什么是堆排序，我们需要先了解二叉树和堆，下面开始本篇的学习实践。

音视频开发之旅（26) 算法系列-选择、插入排序以及STL中sort的实现
这一篇我们一起来学习实践下选择排序和插入排序，然后再一起分析下CPP的STL中排序算法的实现，结束排序算法的阶段。

小白学CV：图像/视频质量评价
在视频监控中，通过图像/视频质量评价(image/video quality assessment，I/VQA)可以预测设备状态，以及时对存在问题的设备进行维修或更换;在网络直播中，通过I/VQA可以分析视频质量，以改善终端用户体验。

OpenGL ES 渲染管线（pipeline）
OpenGL ES 其实是一个状态机，它保存一种状态直至它改变，然后进入下一个状态。每个状态都有本身默认的缺省值，可以通过相关的函数进行查询和设置。

FFmpeg 框架简读 —— 初始化部分
在新版的初始化过程，删除了 av_register_all，旧版本的 av_register_all 的具体实现大概可以概述为运行期通过代码控制，通过代码指定可用的 Demuxer 或 Decoder 等，将他们串成一个链表，等具体 avcodec_find_decoder 时，再通过传入的 codec id 顺次遍历整个链表。

干货 | OpenCV中KLT光流跟踪原理详解与代码演示
在视频移动对象跟踪中，稀疏光流跟踪是一种经典的对象跟踪算法，可以绘制运动对象的跟踪轨迹与运行方向，是一种简单、实时高效的跟踪算法，这个算法最早是有Bruce D. Lucas and Takeo Kanade两位作者提出来的，所以又被称为KLT。

Android FFmpeg系列06--音频可视化
音频可视化，就是将声音的变化以视觉的方式呈现出来，可用于可视化绘制的就是PCM数据，PCM数据是时间离散的，需要用离散傅立叶变换。

音视频开发进阶 — 音频要素
本次课程为系列内容，课程将从音视频基础概念讲解展开，进行学习内容的难度进阶，后期将带领大家学习有关音视频开发的各种疑难问题，以及如何利用 SDK 开发音视频应用！

苹果新获得两项音频专利
近日，美国专利商标局正式公布了苹果公司新授予的66项专利，其中两项与音频相关。第一项音频专利涵盖了一种系统和方法，第二项音频专利涵盖计算机用户界面，更具体地说是用于管理空间音频的技术。

音频基础知识 - PCM 浅析
本文主要介绍下从mp4文件中提取音轨音量的方式，以及相关的知识点。

VVC 环路滤波解读 : 亮度映射与色度缩放 (LMCS)
LMCS (luma mapping with chroma scaling)是 VVC 中新增的技术，其位于去方块滤波之前，也被称为环路重整形（in-loop reshaper），主要包括两个部分：亮度映射（Luma Mapping）、依赖亮度的色度缩放（Chroma Scaling）。

VVC 环路滤波解读：去块效应滤波（DBF）
去方块滤波主要用于去除因为基于块的运动预测和变换导致的块状伪影，基本原理是对平滑区域的不连续边界做强滤波，对纹理丰富区域不滤波或弱滤波。

熵编码算数编码的硬件设计
本文主要提出了三个创新点：1. 利用LPS更新的数据依赖的不完全性加速二进制算数编码（cabac的瓶颈），提出了PN和HPC技术；2. 进一步利用依赖不完全性，提出LHrLPS；3. 提出了BPBS使得常规和旁路之间并行。

快手超低码率实时音视频——基于AI深度神经网络的自研实践
语音通话、线上会议、直播连麦——在丰富的互动场景中，实时音视频RTC技术扮演着重要角色。人们对线上的需求也在不断增加：如何降低延时，避免同时说话的尴尬？能否减少卡顿，像线下交流一样顺畅？

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

紧抓多媒体生态趋势，将浏览器、WebAssembly和Rust等热点结合
熟知播放器工作原理，为实现商业化H.264/H.265播放器打下坚实基础
课程包含图文、代码、视频，降低学习门槛
李超精准讲解，及时详细解答

↑识别上图二维码或点击上图立即订阅。

ANU提出《OCENet》，基于偶然不确定性进行伪装目标检测！代码已开源！
本篇分享 WACV 2022 论文『Modeling Aleatoric Uncertainty for Camouﬂaged Object Detection』，关注不确定的区域！ANU 提出 OCENet，基于偶然不确定性进行伪装目标检测！代码已开源！

数据库领域重要进展！蚂蚁集团高性能图数据 TuGraph 正式开源
蚂蚁集团在刚刚开幕的 2022 世界人工智能大会 WAIC 上正式宣布，开源旗下高性能图数据库 TuGraph 的单机版，TuGraph 是图数据库基准性能测试 LDBC-SNB 世界纪录保持者，本次开源立即成为国内图计算与图数据库技术领域的重要事件。

3D图解神经网络（已开源）
做计算机视觉，离不开CNN。可是，卷积、池化、Softmax……究竟长啥样，是怎样相互连接在一起的？对着代码凭空想象，多少让人有点头皮微凉。于是，有人干脆用Unity给它完整3D可视化了出来。

基于深度学习的图像增强综述
这篇博客主要介绍之前看过的一些图像增强的论文，针对普通的图像，比如手机拍摄的那种，比低光照图像增强任务更简单。

谷歌用新AI超越自己：让Imagen能够指定生成对象，风格还能随意转换
只需上传3-5张指定物体的照片，再用文字描述想要生成的背景、动作或表情，就能让指定物体“闪现”到你想要的场景中，动作表情也都栩栩如生。

介绍用于图像识别的五大最佳编程语言！
有很多技术运用到了图像识别，支付宝的刷脸支付、酒店刷脸进门、淘宝拍图识别购物等，随着人工智能的普及，未来图像识别将越来越受欢迎。编程语言那么多，最适合图像识别的是哪种呢？

图像去噪技术
图像去噪技术是现代数字图像处理器中最为重要的步骤，负责去除在像素值产生、读出、处理过程中产生的各类型噪声。

使用Pytorch进行图像增强的综合教程
在这篇文章中，将列出最好的数据增强技术，以增加数据集中图像的大小和多样性。其主要目的是提高模型的性能和泛化能力。

简单易懂的讲解深度学习（入门系列之五）
感知机学习，就是神经网络学习的“Hello World”，所以对于初学者来说，也值得我们细细玩味。因此，下面我们就给予详细讲解。

6 个机器学习可解释性框架！
随着人工智能的发展为了解决具有挑战性的问题，人们创造了更复杂、更不透明的模型。AI就像一个黑匣子，能自己做出决定，但是人们并不清楚其中缘由。在本文中，将介绍6个用于机器学习可解释性的Python框架。

草图人像变3D模特，360° 无死角还原姿势，一张就行，多“草”都可｜SIGGRAPH 2022
一张随便勾画的草图，居然也可以分分钟自动变成逼真的3D模型？！360° 无死角不说，转换期间真的不需要任何其它角度姿势的输入。这就是获得了SIGGRAPH 2022荣誉奖的一个最新3D姿态估计模型：Sketch2Pose。

机器学习回归模型相关重要知识点总结
回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中，我们将总结 10 个重要的回归问题和5个重要的回归问题的评价指标。

卷积神经网络数学原理解析
本篇分享一篇关于CNN数学原理的解析，会让你加深理解神经网络如何工作于CNNs。出于建议，这篇文章将包括相当复杂的数学方程，如果你不习惯线性代数和微分也没事，目标不是记住这些公式，而是对下面发生的事情有一个直观的认识。

图解机器学习神器：Scikit-Learn
本文详解 scikit-learn 工具库的用法，覆盖机器学习基础知识、SKLearn讲解、SKLearn三大核心API、SKLearn高级API等内容。

‍自动驾驶的社会交互：一个综述和思考（二）
本文回顾了建模和学习人类驾驶员之间社会交互的各种方法，从优化理论和图模型（graphical models）到社会力理论和行为认知科学。还强调了一些新的方向、关键挑战以及未来研究的开放性问题。

一文聊聊自动驾驶感知系统
在自动驾驶赛道中，感知的目的是为了模仿人眼采集相关信息，为后续做决策提供必要的信息。根据感知预测出的结果，完成决策；最后根据决策结果执行相应的操作（如变道、超车等）。

多任务多传感器数据融合实现3D目标检测
本文介绍一篇uber公司在CVPR上发表的一篇论文，即使用多种传感器（LiDAR和RGB相机）数据，以及多任务进行数据融合，实现准确高效的3D目标检测。

英伟达Orin一旦「有事」，国产自动驾驶芯片谁能替代？
自动驾驶会有被“釜底抽薪”的风险吗？“釜”，是AI技术迭代、智能汽车能力进化。“薪”，则是底层最基础的高性能AI芯片。更直白地说，就是目前英伟达统治自动驾驶芯片市场的Orin。高端GPU的变故出现后，“谁能替代英伟达Orin”，成了眼下必须关注的问题。

AVM 环视拼接方法介绍
全景环视系统，又称AVM。在自动驾驶领域，AVM属于自动泊车系统的一部分，是一种实用性极高、可大幅提升用户体验和驾驶安全性的功能。

史上最全 | 单目相机测距测速方法大盘点！
本文综述了基于视觉的车辆速度、距离估计。并建立了一个完整的分类法，对大量工作进行分类，对涉及的所有阶段进行分类。

2023年首推！苹果AR/VR头显叫Reality，西部世界既视感
注册商标申请文件显示，苹果头显名字可能叫Reality。这个名字，瞬间有了西部世界画面的既视感...这样听来，苹果头显名字真是颇具科幻感。

驾驶、娱乐、学车、造车、修车，VRAR已成为汽车行业发展的强大引擎
VRAR在汽车领域有几大应用场景？有哪些企业走在了将VRAR和汽车行业完美融合的路上？VRAR技术为什么深得车企的青睐？我们借助这篇文章与您共同了解。

元宇宙与医学：使医生在患者体内“旅行”，让诊断更快、更便宜、更准确
随着元宇宙开始蓬勃发展，人们对AR/VR等核心技术又产生了新一轮关注。但是，还有第三个被称为远程呈现的技术领域，它常常被忽视，但也将成为元宇宙的重要组成部分。

VR直播！360°近距离看NASA登月火箭Artemis 1发射
8月29日，当美国NASA历史性的“阿尔忒弥斯1号”（Artemis 1）发射前往月球时，一项名为“阿尔忒弥斯上升”（ Artemis Ascending）的全新Meta Quest VR体验将为用户提供沉浸式的发射台视觉，让人们可以从世界各地360°近距离观看火箭发射过程。

活动推荐

LiveVideoStackCon 2022 音视频技术大会北京站
音视频技术在整体大环境的影响下，近年来呈现出迅猛的发展趋势。一方面，视频技术能力的普及，面向现有业务及场景视频化发展的道路存在相当激烈的竞争，从底层技术革新到针对实际场景的业务逻辑优化。另一方面，随着更多新概念、新技术的涌现，未来从生产到消费音视频在哪些新的业务、产品及场景下能够创造更多新的价值是我们迫切需要思考的问题。

⏰ 活动时间：2022年11月4-5日

🌏 活动地点：北京丽亭华苑酒店

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章