音视频技术开发周刊 | 259

2022-08-21 04:08

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

紧抓多媒体生态趋势，将浏览器、WebAssembly和Rust等热点结合
熟知播放器工作原理，为实现商业化H.264/H.265播放器打下坚实基础
课程包含图文、代码、视频，降低学习门槛
李超精准讲解，及时详细解答

↑识别上图二维码或点击上图立即订阅。

阿里云全球实时传输网络GRTN—QoE优化实践
直播已深入每家每户，以淘宝的直播为例，在粉丝与主播的连麦互动中如何实现无感合屏或切屏？肖凯为我们分享GRTN核心网的运作机制、运用方面以及QOE的网络模型在业务板块的实践优化。

七牛云音画质量分析系统的行业前瞻
音画质量分析在短视频爆发式增长的当下凸显得尤为重要，七牛云推出的音画质量分析系统 QoE结合前沿的音视频处理技术和深度学习模型，在音画质量分析行业成为了佼佼者并带来一定影响力。

以泛在算力挖掘泛在价值——网心科技音视频边缘计算实践
飞速增长的音视频数据量对计算带来了巨大挑战，而当下云、端算力的局限性，也制约了音视频数据的价值挖掘。本次分享将围绕上述问题，介绍依托5G等基础建设兴起的边缘计算如何为音视频应用松绑。

万人场景下传输挑战和演进实践
随着网络和移动设备的普及，从两人通话到多人开麦、再到千人万人大课堂，音视频领域得到了迅速的发展。在如今万人场景下，音视频传输面临哪些挑战呢？传输过程又经历了怎样的演进实践？

腾讯视频云流媒体技术探索
吴昊老师，为我们分享《腾讯视频云流媒体技术探索——赛事直播场景的技术优化》，他将介绍如何利用多路径传输、QoS控制，以及跨区调度和加速的能力，优化端到端的传输质量。

PPIO边缘云聚焦音视频底层技术，探索元宇宙“登月工程”
本次分享将从VR/AR的核心指标及实现，云与边缘架构、编解码、网络传输路径等多个维度，全面分析元宇宙的音视频技术脉络，探讨元宇宙时代产业结构变化，介绍PPIO边缘云未来如何为元宇宙提供强大的基础设施服务。

音视频问题--色彩空间矫正异常
做视频行业做的比较久了，比较容易碰到各种奇葩问题，这不一个小伙伴大周末就来问问题了，一起来看看到底怎么回事。

基于深度学习的UGC视频质量评估模型介绍
本文主要介绍两篇基于深度学习的UGC视频质量评估模型。首先介绍的是发表在2021年cvpr的论文，是针对UGC视频质量评估的无参考模型。第二篇介绍的模型是VSFA。VSFA主要针对UGC视频内容进行质量评价。

智能插帧，打造丝滑视频体验
由于网络传输、拍摄丢帧、后期编辑等原因，线上甚至存在不少实际帧率低于 15 fps 的视频。为了消除低帧率视频的卡顿感，需要使用插帧技术来提升视频的帧率，从而给观众带来丝滑流畅的播放体验。

B站自动分辨率落地实战
B站将THROUGHPUT、MPC、BOLA、Pensieve等4种算法全部集成到了客户端上，并对下载视频的过程进行分段，采集网速信息和缓存信息，每隔几秒调用一次ABR算法，决策下一分片的分辨率。

音视频开发之旅（23) 算法系列 - 冒泡排序
Stl中算法组件是Function template，stl中提供了几十种算法，分为质变算法和非质变算法，主要头文件有 <algorithm> <functional> <numeric>，我们今天从排序算法开始学习实践。

声学基础知识｜声辐射的基本特征
声的本质是机械振动，声源是辐射声音的振动体，而传递这种振动的固体液体或气体就是声传播的介质。研究声波的辐射一方面要研究声源振动时声场的规律，另一方面则要研究声场对声源的反作用。

火山引擎 RTC 音频 AI 降噪的应用与实践
音频质量很大程度上影响着通话体验，而噪声又很大程度决定音频质量。火山引擎 RTC，集成了自研的深度学习降噪方案，来应对游戏、互娱、会议等实时音视频沟通场景下的噪声影响。

音视频杂谈--Android音视频进阶
本文总结了作者对音视频开发这个赛道的一些心得、认知和踩坑之路，特别是从Android进阶的一些感悟。核心观点就是寻找初心，目标清晰，反馈激励，框架搭建。

论文推介：对话语音识别中基于文本-语音跨模态方法学习长语音表征
本文提出了一种更有效的方法利用语境信息，服务于对话语音识别。我们引入了一个跨模态的表征提取器，它有效地利用了预训练的语音和语言模型，提取出的表征作为利用语境的对话ASR的一个输入。

论文推介：用于口音识别的语言-声学相似度口音偏移度量
该论文提出一种基于语音-声学相似度的口音偏移度量机制，可以将语音对应文本作为锚点，评估不同口音相对于同一个单词或字的偏移。实验证明，以这种偏移度量作为口音识别模型的输入可以显著提升口音识别正确率。现对该论文进行简要的解读和分享。

实时音视频入门学习：开源工程WebRTC的技术原理和使用浅析
WebRTC是一个支持网页浏览器进行实时语音对话或视频对话的技术方案。从前端技术开发的视角来看，是一组可调用的API标准。

浅析6G无线通信技术及应用
通信业务的发展需要更低延迟、更高系统容量、更高数据速率、更高安全性和更高的服务质量，6G技术应运而生。对于6G的潜在技术如人工智能、太赫兹通信、量子通信、无人机、无蜂窝通信等关键特性和应用进行分析，为未来6G通信的研究提供参考。

RTC 场景下的屏幕共享优化实践
屏幕共享是视频会议场景使用最广泛的功能之一，在共享一个 PPT 或者文档的情况下，人们对画面清晰度有着极高的要求，“看不清” 是最容易被用户吐槽的事情；而在共享一个视频素材的情况下，大家又对流畅度有着极高的要求，“卡顿” 也是最容易被用户吐槽的点。

为什么说TCP是可靠的网络传输协议？
我们知道TCP是流式协议，通过字节流的形式在各个网络设备间流动，基于流式的传输至少有两大问题需要解决。第一，假如某个数据段丢了怎么办？第二，传输过程中发生拥堵怎么办？当然，实际的TCP协议要解决的远不止这两个问题。

Android FFmpeg系列02--音视频基础
本文主要分为音视频的一些基础概念和FFmpeg相关的基础概念两个部分。

通过智能视频分析和增强来促进视频转码
对于短视频应用，上传到云端的视频已经被严重压缩，对于一般质量的视频需要进一步增强后转码。提出的 CAE 方案通过对视频内容分类，针对性的预处理增强，以及自适应编码，相比原始的 x264 编码，取得了较高的 VMAF 指标码率节省和较低的复杂度。

AV1去方块环路滤波
本文介绍AV1编码器中的去方块滤波模块的原理设计、代码实现以及快速算法。

音视频开发进阶｜音频编解码的必要性解读与格式选取
如何高效利用带宽，如何在有限的带宽下传输更多的音频数据，是我们的重要课题。而音频编解码，就是这个课题的一个有效解决方案。

YUV 图像工具：Libyuv 的编译与使用
在 Android 系统上, Camera 输出的图像一般为 NV21格式, 当我们想进行录像处理时, 会面临图像的旋转和偏色的问题。libyuv 是 google 为了解决移动端 NV21 数据处理不便所提供的开源库, 它提供了旋转, 裁剪, 镜像, 缩放等功能。接下来看看 libyuv 的编译与使用。

【最新开源】快稳准！视频实例识别，赛车场都能应用ECCV22
VNext是基于 Detectron2 的下一代视频实例识别框架。目前它提供了先进的在线和离线视频实例分割算法。迄今为止，VNext 包含以下算法的官方实现：IDOL和SeqFormer。

如何选择音视频开源项目，避坑指南，入坑躺平
音视频业务的繁荣，必定造就开源项目的繁荣，反过来说也是一样的，互相成就。遍地都是开源的轮子，如何选择？提供一个有效的角度，可作为避坑指南。如果已经入坑了，您躺平就好，入坑就已经有了门户之见，死生有命富贵在天。

一种基于深度学习框架的图像融合方法
本文介绍一种基于深度学习框架进行红外和可见光图像融合的方法。与传统图像融合方法不同的是，作者将深度学习框架作为提取细节内容多层特征的工具，能够在保留更多细节的同时，减少噪声等非理想因素。

HOG特征详解与行人检测
HOG(Histogram of Oriented Gradient)特征在对象检测与模式匹配中是一种常见的特征提取算法，是基于本地像素块进行特征直方图提取的一种算法，对象局部的变形与光照影响有很好的稳定性，最初是用HOG特征来来识别人像。

实战 | 红酒瓶标签曲面展平+文字识别(附源码)
本文的目标是让计算机从一张简单的照片中读取一瓶红酒上标签文字的内容。因为酒瓶标签上的文本在圆柱体上是扭曲的，我们无法直接提取并识别字符，所以一般都会将曲面标签展平之后再做识别，以提升准确率。

OpenCV实现照片自动红眼去除
使用闪光照相机拍照，在光线条件不足的情况，如果眼睛盯着相机镜头很容易造成拍出的照片中人眼球变成红色，而做图像处理开发者可以借助OpenCV提供API功能轻松实现自动红眼去除修复。

数字图像处理基本知识
数字图像，又称为数码图像或数位图像，是二维图像用有限数字数值像素的表示。数字图像是由模拟图像数字化得到的、以像素为基本元素的、可以用数字计算机或数字电路存储和处理的图像。

简单易懂的讲解深度学习（入门系列之三）
在之前系列中已大致了解了机器学习的形式化定义和神经网络的概念，在本小节中，将相对深入地探讨一下神经网络中的神经元模型以及深度学习常常用到的激活函数及卷积函数。

ACM MM 2022 | Cloud2Sketch: 长空云作画，AI笔生花
在本文中，作者展示了一种新的应用任务——用想象的动物素描增强云朵——以将想象带入现实。作者设计了一种自监督的流程来处理此任务独有的挑战。

机器学习模型的可解释性算法汇总！
本文介绍目前常见的几种可以提高机器学习模型的可解释性的技术，包括它们的相对优点和缺点。

【CV知识点扫盲】| 损失函数篇
最近准备开始一个名为【CV知识点扫盲】的专题文章，帮助自己和更多人复习计算机视觉中的基础知识，也希望能够对正在找工作的同学有帮助，首先来看机器学习中常见的损失函数。

图神经网络从入门到入门
本篇文章将从一个更直观的角度对当前经典流行的GNN网络，包括GCN、GraphSAGE、GAT、GAE以及graph pooling策略DiffPool等等做一个简单的小结。

吃透空洞卷积（Dilated Convolutions）
空洞卷积中文名也叫膨胀卷积或者扩张卷积,空洞卷积最初的提出是为了解决图像分割的问题而提出的,但立马被deepmind拿来应用到语音(WaveNet)和NLP领域，它在物体检测也发挥了重要的作用。

‍一文读懂自动驾驶车道线识别
车道识别是自动驾驶领域的一个重要问题，今天介绍一个利用摄像头图像进行车道识别的实用算法。该算法利用了OpenCV库和Udacity自动驾驶汽车数据库的相关内容。

国内外自动驾驶OS盘点
关于自动驾驶操作系统架构，笔者认为《车载智能计算基础平台参考架构1.0》已经给出了很好的描述，现已经成为行业共识。本文重点分析国内外自动驾驶相关企业操作系统的发展现状和未来趋势。

一种纯电动汽车的自动驾驶系统设计
本文内容为一种自动驾驶系统及其开发实现流程和方法，系统开发过程中采用新型研究成果，降低系统复杂度，提高自动驾驶系统的开发效率，减少系统开发成本。

超声波为VR场景提供触觉反馈
触觉反馈可以为游戏和其他虚拟体验提供一个额外的维度，但要实现却困难重重。科技初创公司Emerge希望通过最新打造的Emerge Wave-1来实现，该设备可与VR头盔配对，发射超声波，让用户感受到虚拟物体和感觉。

VR 中的实时注视点预测
这篇文章主要介绍了注视点预测在VR中的应用。注视点是视觉注意力的主要指标，它可用于增强多媒体体验。

Light Adv. Manuf. | MR头显的全息技术
本文回顾了过去 10 年发展起来的各种光学技术和架构，以提供足够的解决方案来满足消费级 HMD 的巨大市场需求。

AR纸书即将上市——纸质书和电子书将实现完美共存？
你见过电子书、有声书、立体书，当然还有传统的纸质书，但是你能想象其他形式的书籍吗？萨里大学的研究人员历经六年的时间，研究出了一种所谓的“增强现实图书”，又称“a-books”（AR图书）。

活动推荐

LiveVideoStackCon 2022 北京站讲师招募开始啦！

11月4-5日，LiveVideoStackCon 2022 北京站将与大家继续探索音视频技术在不同场景下的融合与发展，在这里不仅可以与业内大佬们进行技术上的心得交流，还可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战，与对未来规划的深入解读。LiveVideoStackCon是每个人的舞台，如果你在团队、公司中独当一面，在某一领域或技术拥有多年实践，并热衷于技术交流，欢迎申请成为LiveVideoStackCon的讲师。

点击「阅读原文」，即可在网页下方报名，还可查看讲师权益与申请条件。

或提交演讲内容+个人介绍至邮箱：[email protected]，

我们将尽快审核并通知您最终结果。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章