音视频技术开发周刊 | 257

科技

2022-08-07 04:08

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

紧抓多媒体生态趋势，将浏览器、WebAssembly和Rust等热点结合
熟知播放器工作原理，为实现商业化H.264/H.265播放器打下坚实基础
课程包含图文、代码、视频，降低学习门槛
李超精准讲解，及时详细解答

↑识别上图二维码，

↓或点击文末「阅读原文」立即订阅。

AI 视频后处理增强服务
低质量的视频非常影响观看体验。Small Pixels 提出了一种基于 GAN 的后处理增强方案，可以实时提升视频质量或减少直播带宽，并提供了相应的产品服务。该方案在 VMAF，LPIPS 指标以及 DSIS 主观测试上都取得了较好结果。

跨平台播放器开发 (七) FFplay 解封装、解码、音视频同步原理分析
该篇主要介绍「ffplay」如何实现的解封装，解码和音视频同步的能力，下一篇文章会根据「ffplay」已提供的能力，会把一些基础能力给独立出来，以便于后续的扩展。

音视频开发之旅（20) 指针、内存模型、引用
本文主要目录：指针、内存模型和四区使用、引用、资料、收获。下一篇我们继续学习实践cpp知识继承、多态、模版。

音视频开发之旅（21）运算符重载、继承、多态、模版
本次主要学习内容：类和对象的重要知识点、运算符重载、继承、多态、模版。下一篇我们学习实践CPP 的 STL容器和算法。

一文看完 WWDC 2022 音视频相关的更新要点丨音视频工程示例
WWDC 2022 一共发布了 170 多个 Session，其中与音视频相关的 Session 也有不少，在这里根据内容相关性分类整理了其中的要点，快来一起看看吧。

为播放器外接一套渲染框架
如果你有一定的音视频基础，其实从头开发一个播放器并非难事，自己从头开发的播放器可定制化程度就非常高。我做播放器也很久了，今天不想谈播放器的性能优化和内部原理，谈谈播放器的渲染框架。

使用计算机视觉反转视频
在本文中，我们将使用[计算机视觉技术开发一个应用程序，该应用程序将反转视频，并且我们将能够将反转的视频保存在我们的本地系统中。在此应用程序中，我们还可以更改其质量，例如 360/720p。

音视频基础--HEIF Android走读1
上一篇文章，我们介绍了HEIF格式，无意中发现Android代码中竟然已经支持了，所以本片文章进行一些代码整理，方便更加深入理解HEIF格式，废话不多说，直接走起。

码率vs.分辨率，哪一个更重要？
在本文中，我们将讨论OTT领域中视频压缩和处理的基本问题：码率vs.分辨率，哪一个对视频流更重要？很多人都有此困惑，因为这两个因素会对编码器的输出产生深远影响。

低功耗熵编码设计研究
本文首先对视频编码器中的熵编码模块进行简要介绍，然后对三篇关于HEVC熵编码模块的低功耗设计文章进行了分析和总结，并由此引出对VVC中熵编码模块设计的思考。

面向复杂性的 per-shot 编码优化
目前的 per-shot 编码方案的可调参数空间只有空间分辨率和QP/CRF，导致编码灵活性不足。我们提出了一种编码器的速率-失真-复杂度优化过程，以及一种在复杂度和比特率阶梯的约束下确定编码参数的方法。

HEVC帧内编码器的硬件友好算法和全并行硬件结构实现
本次介绍的是一篇发表于2019年TCSVT上的论文，主要内容为H.265/HEVC帧内编码器的高效且硬件友好型算法和全并行硬件结构的实现。

音视频学习--运动估计搜索算法（三）
上几篇上介绍了基本的运动估计内容、经典的搜索算法，本文继续按照这种学习技巧完成菱形搜索和六边形搜索算法的解读，期望对于大家有帮助。

论文推介：噪声无关的语音表征学习——面向带噪目标说话人的高质量语音转换
如何在目标说话人只有带噪数据的“低质”场景下构建高质量的语音转换系统是一个具有挑战性的任务。论文针对上述任务，提出一种与噪声无关的语音表示学习方法，实现对带噪目标说话人的高质量语音转换。

主动噪声控制的线性算法优劣比较
为了能够主动的消除噪音，早在1936年，德国科学家保罗·卢格就提出了ANC的概念。如今，ANC已经被证明是减少电机噪声的有效方法，并被广泛应用于耳机、助听器、汽车等消费电子领域。

游戏中背景音乐和音效的视听同步研究
本文主要介绍了游戏中背景音乐和音效的视听同步研究，通过实验探索研究了人们对视听同步的感知能力和个体差异，以及影响视听同步的主要因素。

RL-AFEC：基于强化学习的实时视频通信自适应前向纠错
本文主要介绍了一种新的用于实时视频通信的自适应前向纠错（AFEC）。能够改善由于视频包丢失导致的视频质量，同时最小化额外带宽。

【流媒体】推流与拉流简介
推流指的是把采集阶段封包好的内容传输到服务器的过程。其实就是将现场的视频信号传到网络的过程。拉流是指服务器里面有流媒体视频文件，这些视频文件根据不同的网络协议类型（如RTMP、RTSP、HTTP等）被读取的过程，称之为拉流。

RTC 场景下的屏幕共享优化实践
屏幕共享是视频会议场景使用最广泛的功能之一，在共享一个 PPT 或者文档的情况下，人们对画面清晰度有着极高的要求，“看不清” 是最容易被用户吐槽的事情；而在共享一个视频素材的情况下，大家又对流畅度有着极高的要求，“卡顿” 也是最容易被用户吐槽的点。

图像处理基础知识--建议掌握
本文为大家介绍图像处理的一些基础知识，一起来看看吧。

基于L0梯度最小化的图像平滑
本文介绍的是一篇发表于2011年ACM Transactions on Graphics上基于L0范数进行图像平滑的论文。这篇文章所提出的方法主要应用于压缩伪影的去除、边缘提取以及水彩画效果的产生。

计算机视觉中的语义相似性搜索
在这篇文章中，我们将使用Kaggle提供的Digikala产品颜色分类数据集来构建一个简单的基于电子商务图像的类似产品搜索服务。该数据集是根据GPL 2许可证授权的。

机器视觉检测中的图像预处理方法
本文以Dalsa sherlock软件为例，一起来了解一下视觉检测中平滑模糊的图像处理方法。

简单易懂的讲解深度学习（入门系列之一）
目前人工智能非常火爆，而深度学习则是引领这一火爆现场的“火箭”。于是，我们推出深度学习的入门系列。在这个系列文章中，我们力图用最为通俗易懂、图文并茂的方式，带你入门深度学习。

迈向可验证的 AI: 形式化方法的五大挑战
本文回顾了形式化方法传统的应用方式，指明了形式化方法在 AI 系统中的五个独特挑战。

基于LSTM-CNN的人体活动识别
人体活动识别（HAR）是一种使用人工智能（AI）从智能手表等活动记录设备产生的原始数据中识别人类活动的方法。在本文中，我将使用LSTM和CNN来识别上楼、下楼、跑步、坐立、行走等人类活动。

机器学习理论基础到底有多可靠？
机器学习领域近年的发展非常迅速，然而我们对机器学习理论的理解还很有限，有些模型的实验效果甚至超出了我们对基础理论的理解。近日，一位名为 Aidan Cooper 的数据科学家撰写了一篇博客，梳理了模型的实验结果和基础理论之间的关系。

5分钟就能入门机器学习的基础知识
机器学习（Machine Learning）本质上就是让计算机自己在数据中学习规律，并根据所得到的规律对未来数据进行预测。机器学习包括如聚类、分类、决策树、贝叶斯、神经网络、深度学习（Deep Learning）等算法。

一篇适合新手的深度学习综述！
文章列举出了近年来深度学习的重要研究成果，从方法、架构，以及正则化、优化技术方面进行概述。对于刚入门的深度学习新手是一份不错的参考资料，在形成基本学术界图景、指导文献查找等方面都能提供帮助。

一文解析自动驾驶系统中的不确定性感知场景
场景动态适应能力问题，即所谓“Long-Tail Challenge” 长尾挑战，依旧是ADS当前待解决的主要难题之一。

ECCV2022解读：首篇基于环视相机的端到端自动驾驶框架！
该论文提出了第一个基于环视相机的，具有显示中间表征结果的端到端自动驾驶框架。针对感知-预测-规划三个子模块，团队分别做了提升时空特征学习性能的特殊设计，包括：基于累积的静态物体特征增加与动态物体特征对齐，结合历史特征变化与未来不确定性建模的双路预测模块，网络前部特征融合提升规划性能。

Mix-Teaching：适用于单目3D目标检测的半监督方法【清华大学】
单目3D目标检测是自动驾驶必不可少的感知任务。然而，对大规模有标签数据的高度依赖使得模型优化过程成本高昂且耗时。为了减少对人工标注的过度依赖，我们提出了Mix-Teaching，这是一种有效的半监督学习框架，可以在训练阶段同时使用标注和无标注的图像。

实战：使用 OpenCV 的自动驾驶汽车车道检测（附代码）
驾驶时，为了让汽车保持在车道上，只关注当前道路的下一个100米。此外，也不关心分隔线另一侧的道路。这就是我们定义的区域。我们将使用 Canny 进行边缘检测。

万字长文理解纯视觉感知算法 —— BEVFormer
该篇论文提出了一个采用纯视觉（camera）做感知任务的算法模型 BEVFormer。BEVFormer 通过提取环视相机采集到的图像特征，并将提取的环视特征通过模型学习的方式转换到 BEV 空间（模型去学习如何将特征从图像坐标系转换到 BEV 坐标系），从而实现 3D 目标检测和地图分割任务，并取得了 SOTA 的效果。

OST AR中阴影的感知增强
这篇演讲针对 OST AR 中的阴影醒目性受环境影响较大，在部分场景下醒目性较差的问题，提出了彩色阴影这一思想，并设计了具体的算法流程。经过实验证实，该方法在不同环境下均有较好表现。

纽约时代广场推出AR应用，游客可以与野生动物“亲密互动”
近日，美国纽约市地标——时代广场推出了《混凝土丛林AR时代广场》（Concrete Jungle AR Times Square），这是一款大型AR应用程序体验，将把时代广场变成一个数字游乐场，为大家带来探险体验。

基于 AI 的 VR 儿童数字人
本演讲介绍了一个基于人工智能驱动的，旨在模拟受虐待儿童的 VR 儿童数字人 (Child Avatar) 。通过该数字人培训警察与儿童保护组织 (CPS) 的人员如何采访并调查受虐儿童。

活动推荐

【公开课预告】Optimizing AV1 performance for online video streaming and real-time communications

The AV1 video compression format is developed by the Alliance for Open Media (AOMedia) industry consortium, and achieves more than a 30% reduction in bit rate compared to its predecessor VP9 for the same decoded video quality. However, the encoder complexity of AV1 is much higher than VP9.

In this presentation, we will discuss the optimization technologies in libaom AV1 encoder. In video-on-demand (VOD) encoding, the encoder complexity has been reduced to the complexity level of VP9 encoder while still achieving 22% bit rate savings. The optimized AV1 encoder offers a superb solution for online video streaming services (e.g. YouTube), reducing the encoding cost and generating huge bandwidth and storage savings. Libaom AV1 also provides a super fast real-time encoder for real-time communications (RTC). AV1 real-time encoder has been adopted in Google Duo, which empowers video conferencing at very low bitrates.

⏰活动时间：2022.8.9 | 10：00

🚀观看方式：扫描上方海报二维码，报名进群参与Q/A

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章