音视频技术开发周刊 | 256

科技

2022-07-31 04:07

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

LiveVideoStackCon 2022 上海站 | 8月5日我们一起聚焦音视频、探秘技术新发展

技术的快速升级正在一步步改变着人们的生活，创造出更多丰富的应用，带来更加前所未有的体验。元宇宙、虚拟人、数字孪生等更多新概念的涌现，催生出哪些新的音视频应用场景和体验，2022年8月5日-8月6日我们在上海海神诺富特大酒店一起探讨吧。

⏰ 时间：2022年8月5-6日

📌 地点：上海·海神诺富特大酒店

（点击文末「阅读原文」立即购票）

专访即构科技李凯：音视频的有趣、行业前沿一直吸引着我
近日，LiveVideoStack邀请到了即构科技视频处理工程师李凯，请他来跟我们聊聊即构自研移动端实时超分辨率技术的优势与应用场景，在移动端实现此技术所遇到的挑战与困难，即构所采取的应对策略等。

跨平台播放器开发 (六) FFplay 主体框架的构成
从该篇开始，跨平台播放器将不以 QT 为主，为什么呢？因为 QT 不是我们主要学习的范围，我们主要还是学习如何基于 ffmpeg 等基础库来打造一个真正的跨平台播放器 SDK 。

音视频开发之旅（19） NDK构建方式 NDK-Build与CMake
AS 2.2 +默认使用CMake进行 NDK 编译，我们这篇主要学习实践也是CMake，那么为什么要带ndk-build呐？

WWDC 2022 音视频相关 Session 概览（EDR 相关）丨音视频工程示例
EDR（Extended Dynamic Range）是苹果推出的一套渲染管线技术，以支持在不同的屏幕上同时正确显示 SDR 和 HDR 内容。

移动端人脸风格化技术的应用
本文介绍了人脸风格化技术的整个流程，以及该技术在直播、短视频等场景下的应用。该技术可作为氛围营造、提高观感的有效手段，也可在买家秀等图文场景下起到人脸隐私保护、增添乐趣等作用。

视频分类技术整理
最近在做多模态视频分类，本文整理了一下视频分类的技术，分享给大家。

使用机器学习自动选择足球视频缩略图
为了解决足球视频中的缩略图选择，本文基于现有研究对于一个好的缩略图属性定义了一个规则集并基于规则集实现了一个端到端、自动化、模块化、可配置的缩略图选择框架 HOST-ATS，实验结果证明该框架性能优于静态选择及 Hecate 算法。

音视频问题--绿屏再现
前几天收到测试小妹妹提的一个bug，在此记录一下解决思路，排除方法，方便碰到类似问题时有借鉴意义。

深入浅出依赖注入及其在抖音直播中的应用
本文试图从原理入手，讲清楚什么是依赖，什么是反转，依赖反转与控制反转的关系又是什么？一个依赖注入框架应该具备哪些能力？抖音直播又是如何通过依赖注入优雅的实现模块间的解耦？

MPEG音频编码三十年
在这三十年中，MPEG的音频组向市场输入了一代又一代的音频编码标准。作为MPEG最佳传统，这些标准在某种意义上是通用的，可用于纯音频或者音频+视频应用程序。随着新一代音频编码标准构建在前代编码标准之上，这些编码标准通常可进行扩展。

2022容器格式全面指南
本文是一篇介绍2022年容器格式的全面指南，由Bitmovin公司中一些世界级的视频工程师和专家创作。

编译 Android 使用的 libx264 并使用进行 H.264 编码
在日常的音视频开发中，我们经常使用FFmpeg，因为它确实好用呀，囊括了各种功能！但是有个很严重的问题，如果是编译在Android和IOS上使用，会造成APP的包很大。

人脸视频的生成式压缩：混合编码方案
VVC作为最新的视频编码标准，在保持像素质量方面表现出了良好的性能。为了挖掘视频会议场景在超低码率下的更大压缩潜力，我们提出了一种码率可调的人脸视频混合编码方案。

音视频学习--运动估计搜索算法（二）
上期介绍了基本的运动估计内容、以及描述了全搜索和三步搜索算法，本文继续介绍相关算法：二维对数法、新三步搜索法、四步搜索法，废话不多，直接开始。

基于对象的实时空间音频渲染丨Dev for Dev 专栏
本期文章，我们将主要讨论基于对象(object-based)的实时空间音频渲染，也就是如耳机等应用场景中，渲染对象为一个音源时的渲染思路与方案。

论文推介：Glow-WaveGAN 2—高质量的零资源语音合成与转换
该论文提出一种基于变分自编码器（VAE）和说话人编码器的高质量零资源语音合成与转换架构，构建了一个连续的说话人空间，利用流的可逆性获得任意说话人语音的条件分布，从而无需微调模型，即可为新说话人生成高质量的语音。

声学基础知识：频率响应函数
实验模态分析中的频率响应函数是基于频率的测量过程；用于测量结构的共振频率，阻尼和模态振型；有时称为输入和输出之间的“传递函数”；表示线性时不变系统的输入 (x) 和输出 (y) 之间的关系。

RTC 性能自动化工具在内存优化场景下的实践
本次内存优化，我们探索了 RTC 场景下性能归因分析驱动性能优化的实践。

全链路压测改造之全链自动化测试实践
B站直播营收送礼业务有着高写、在跨晚和S赛等大型活动下流量陡增、数据实时性要求高等特性，因此业务对全链路压测有着较大的诉求，需要通过全链路压测来系统性地评估服务容量，发现瓶颈和隐患。

音视频环形缓冲区介绍与实现
环形缓冲区对于数据写入和读出以不同速率发生的情况也是非常有用的结构：最新数据始终可用。如果读取数据的速度跟不上写入数据的速度，旧的数据将被新写入的数据覆盖。通过使用循环缓冲区，能够保证我们始终使用最新的数据。

图像信号处理芯片设计原理——17 HDR和WDR
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究，以典型的相机成像系统为基础，涉及的内容包括各类缺陷校正，去马赛克，去噪，3A算法，超分，HDR，风格迁移等主题。本文将简述曝光的相关知识，并介绍自动曝光HDR和WDR。

混合多尺度分解融合算法
本文介绍的是图像融合传统算法中的混合多尺度分解融合算法。算法流程大概为：首先使用双边滤波和高斯滤波结合的方式来对原始的图像进行分解，分解为得到基础图像和多层细节图像，然后使用三种不同的融合策略对基础层图像和细节层图像进行融合，最后重建图像。

关于图像处理和Python深度学习的教程：第一部分
在这篇文章中，我们将学习如何执行图像处理。在整篇文章中，我们使用到的库是Scikit Image。

关于图像处理和Python深度学习的教程：第二部分
我们今天学到的东西并不复杂，最多需要几行代码。棘手的部分是将它们应用于实际问题，并实际提高模型的性能。

自动驾驶方向开源数据集资源汇总
本文汇总了自动驾驶方向的开源数据集，包括城市景观数、语义分割、交通标志、行人、车道检测等共11个数据集。

FFmpeg命令分析-map_channel
本文命令是把 a.mp4 里面的左右声道分布存储在 left.aac ，right.aac 里面，以 FFmpeg4.4 源码为准。

https://juejin.cn/post/7088580917811216421

AI不适合开源？MongoDB副总裁：开源代码对人工智能不适用
是时候聊聊AI开源的问题了。显然，这是搞开发的人不得不面对的问题。基本从2006年开始，开不开源就已经成为了头等问题之一。

图神经网络的可解释性方法介绍和GNNExplainer解释预测的代码示例（附代码）
本文探讨以下5方面：GNN 需要可解释性、解释 GNN 预测的挑战、不同的 GNN 解释方、GNNExplainer的直观解释、使用 GNNExplainer 解释节点分类和图分类的实现。

机器学习数学本质的理解
鄂老师首先分享了他对机器学习数学本质的理解（函数逼近、概率分布的逼近与采样、Bellman方程的求解）；然后介绍了机器学习模型的逼近误差、泛化性质以及训练等方面的数学理论；最后介绍如何利用机器学习来求解困难的科学计算和科学问题。

梯度下降背后的数学之美
本文作者 Suraj Bansal 通过对梯度下降背后的数学原理进行拆解，并配之以简单的现实案例，以轻松而有趣的口吻带大家深入了解梯度下降这一在机器学习领域至关重要的方法。

万字长文人脸识别算法及系统综述
人脸识别是AI行业应用最广的一个功能，本文将从人脸识别算法和评价指标、人脸识别系统的构成等方面给大家带来有关人脸识别的分享，希望对大家有帮助！

ECCV 2022 | 网易互娱AI Lab提出首个基于单幅图片的实时高分辨率人脸重演算法
网易互娱 AI Lab 提出了一种基于单幅图片的实时高分辨率人脸重演算法，分别在台式机 GPU 和手机端 CPU 上支持以实时帧率生成 1440x1440 和 256×256 分辨率的人脸重演图像。

机器学习 | 基础图表
本文介绍了机器学习基础的图表，其中介绍了机器学习的基本概念、原理、历史、未来趋势和一些常见的算法。

目标检测｜SSD原理与实现
目标检测近年来已经取得了很重要的进展，主流的算法主要分为两个类型：two-stage方法和one-stage方法。本文我们详细讲解SDD算法的原理，并最后给出如何用TensorFlow实现SSD算法。

自动驾驶最核心的技术是什么？
自动驾驶最核心的技术是什么？有的人认为是感知、有的人认为是决策，有的人认为是非技术的东西，比如能否持续赚到钱、能否做好前瞻性的管理工作等等。不知道你怎么看？

深度强化学习处理真实世界的自动驾驶
强化学习（RL）广泛用于解决使用离散控制空间输出的任务，如围棋、Atari游戏或国际象棋以及连续控制空间的自主驾驶。特别是，RL算法广泛应用于自主驾驶领域，本文采用D-A3C的延迟版本，属于所谓的Actor-Critics算法家族。

自动驾驶下游任务的数据需求估计
给定一个小训练数据集和学习算法，需要多少数据才能达到目标（target）验证或测试性能？这个问题在自动驾驶应用中至关重要，因为收集数据既昂贵又耗时。高估或低估数据需求会产生大量成本，本来在预算中是可以避免的。

上亿人围观！小眼睛博主竟被智能车误判开车睡觉，何小鹏亲自回应
尴尬局面常有，谁曾想竟被辅助驾驶嫌弃。这次，一位车主竟因为眼小被小鹏汽车误判成睡觉，引上亿网友围观。难道眼小也有错？

如何通俗易懂地理解自动驾驶？
从自动驾驶的架构出发往往最能够理解自动驾驶的原理，大众对自动驾驶最浅显易懂的理解就是感知，决策，执行。

用AR开启历史，让沉睡的文化宝藏焕发时代之美
历史，蕴藏着无尽宝藏，而未来，总是拥有无限可能。如果用未来的方式开启历史，将会焕发出怎样的生命力？接下来，就跟小编一起去看看AR视角下的博物馆有着怎样的精彩吧。

盘点AR相关政策
随着AR技术的不断发展，AR行业越来越受到国家重视。近两年来，国家陆续出台多项AR相关政策，极大推动了AR技术落地，明确了AR市场的发展前景。

小扎下血本！Meta专为元宇宙搞了个AI模型
专门为元宇宙打造的AI框架，是什么样子的？人工智能将成为虚拟世界的支柱。人工智能在元宇宙中可与多种相关技术结合，如计算机视觉、自然语言处理、区块链和数字双胞胎。

活动推荐

LiveVideoStackCon 2022 上海站 | 腾讯云音视频专场即将见面，千元大奖等你来拿！

本次腾讯云专场将为大家带来：实时音视频5G远程操控技术、腾讯云流媒体技术、编解码技术、出海实践、对等网络实时音视频通信技术，讲师们将与大家共话音视频通信领域发展趋势，合力谱写音视频通信新时代的蓝图。

⏰活动时间：2022/8/5 14:00-17:50

🚀参与方式：线下参会（免费）

📌地址：上海海神诺富特大酒店-麦哲伦3厅

🎁福利领取：

成功报名活动，扫码进群即可获得品牌优质内容汇总
参与专场活动有机会抽取千元惊喜大礼

扫描二维码立即报名！

LiveVideoStackCon 2022 上海站 | 探索音画质量提升背后的秘密，千元大礼等你来拿！

七牛云音视频团队 2021 年在 LiveVideoStackCon 北京站大会发布了音画质量分析系统，得到了不少业内玩家和客户的认可。这一次，七牛云将继续以音画质量为主线，结合自身 QRTC 的产品，给大家带来这一年的一些迭代和创新。

⏰活动时间：2022/8/6 9:30-12:15

🚀参与方式：线下参会（免费）

📌地址：上海海神诺富特大酒店-麦哲伦3厅

🎁福利领取：

成功报名活动，扫码进群即可获得品牌优质内容汇总
参与专场活动有机会抽取千元惊喜大礼

扫描二维码立即报名！

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章