音视频技术开发周刊 | 265

2022-10-02 02:10

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

LiveVideoStackCon 2022 北京站祝您国庆快乐！

⏰ 活动时间：2022年11月4-5日

🌏 活动地点：北京丽亭华苑酒店

音视频开发之旅（30) -音视频基础知识
从这篇开始我们进入FFmpeg系列的学习实践，作为开篇，我们先来了解下音视频相关的基础知识。

Android FFmpeg系列08--seek和精准seek
seek功能的基本实现是比较简单的，不过要做到连续正向&逆向seek播放流畅不卡顿要做的优化点其实是比较多的，本篇文章仅讲述如何使用FFmpeg来实现最基本的seek和精准seek功能。

视频基础知识
B站B端技术中心资深开发工程师姜军为你从0开始讲视频：一系列连续的图片按照一定的速度进行顺序播放，人眼看起来就像是画面中的东西在动，这就形成了视频。

音视频生产关键指标：视频发布优化丨音视频工业实战
这篇文章是音视频工业实战主题专栏中关于视频发布流程的优化。视频发布流程是指视频录制和编辑完成后，对视频进行转码、上传的过程。在这个过程中，我们关注的指标包括发布成功率、发布耗时等。

从0到1000万：哔哩哔哩直播架构演进史
哔哩哔哩直播经过 8 年时间的发展，技术架构从一个单体服务演进为由数百个微服务组成的复杂系统。本文将回顾 8 年来哔哩哔哩直播架构演进中一步步的变化，带你了解它是如何从 0 开始逐渐成为能够承载千万在线的微服务系统。

基于光流的端到端视频修复算法
本文提出了一个端到端的可训练的基于光流的视频修复模型。实验结果表明该方法在两个基准数据集上实现了最先进的定量和定性性能，并且在推理时间和计算复杂度方面非常高效。

对话腾讯天琴赵伟峰：当音乐与科技结合，会碰撞出怎样的火花？
腾讯音乐旗下的天琴实验室就如精妙绝伦的天琴一样，为人们带来了完美、流畅的音乐。近些年来，天琴实验室一直致力于音频技术的创新和研发，他们已经推出了听歌识曲、哼唱识别、翻唱识别、智能字幕、智能修音、臻品音质、DMEE等音频创新功能和产品。

中国汽车声学行业综述
汽车声学系统中的核心硬件包括车载扬声器、车载功放以及 AVAS，其中中国自2018年至今已陆续出台多个将AVAS系统规定为新能源汽车强制安装的配套产品的政策负法规，汽车声学行业迎来增量市场。

竞赛获奖系统解读：远场说话人确认中基于两阶段迁移学习解决域不匹配问题
本文介绍了西工大音频语音与语言处理研究组与华为云合作提交在FFSVC2022上的说话人确认系统，提出了一个两阶段迁移学习框架来解决域不匹配的问题。

端到端语音识别应用基于前缀树的热词技术
本文介绍的是关键词即特定场景语料，在序列到序列任务中通过构建状态转移自动机的方法改善最终效果的方案。

对话Debargha Mukherjee：AV1历史和三个你可能不知道的工具
在这次采访中，你将了解关于AV1开发的重要内容，其中包括使AV1在市场中获得独特优势的三个工具。在采访最后，Debargha还分享了如何最有效地使用新编解码器的秘密，这样你就能够尽可能准确地评估编解码器。

VVC 的精确复杂度控制
文章参考了码率控制的思路，实现了第一个基于 VVC 的编码器复杂度控制方法，无需多轮编码，即可精确达到指定的编码复杂度（绝对时间）。

基于JND的AV1编码器感知率失真优化
本文介绍一篇发表于2019 PCS的论文，该论文提出一种基于JND的AV1编码器感知率失真优化方案，实验结果表明，与原来的AV1相比，所提出的方法可以有效地提高感知编码的效率。

WebRTC开源项目现状
在今天这篇文章中，我们会详述WebRTC开源生态的现状，以及我们为什么需要做出必要的改变以确保WebRTC在未来几年能够健康发展。

能听懂口音的开源语音系统来了：OpenAI出品，支持99种语言，英文识别能力直逼人类
逼近人类水平的语音识别系统来了？没错，OpenAI新开源了一个名为「Whisper」的新语音识别系统，据称在英文语音识别方面拥有接近人类水平的鲁棒性和准确性！

开源要正式写进法律了？
美国两党议员近日提出的“保护开源软件法案”，旨在确保联邦政府、关键基础设施和其他机构安全可靠地使用开源软件。该法案也被称为保护开源软件法案，立法一旦成功，它将成为联邦政府更广泛地支持开源软件的健康和安全的历史性一步。

MICCAI 2022 | ASA:用于预训练脑核磁分割的注意力对称自动编码器开源
本文提出了提出了一种基于Vision Transformer (ViT) 的新型注意力对称自动编码器 (ASA)，用于 3D 大脑 MRI 分割任务，在三个脑 MRI 分割基准上优于最先进的自监督学习方法和医学图像分割模型。

复杂网络环境下加密流量识别方法研究
互联网络快速发展，流量的变化日益多样和复杂，加密流量占比不断提高给网络安全带来挑战。通过对现有加密流量的主流识别方法进行分析对比，设计了一种适用于大型骨干网加密流量应用识别的系统，以对不同网络环境下的加密流量进行精准分类。

HTTPS的原理浅析与本地开发实践（上）
本文提出了HTTP协议在目前网络传输中存在的问题，然后基于两个典型问题做了合理的方案设想，最终推演出的第四种方案。

HTTPS的原理浅析与本地开发实践（下）
本文将以阿里云证书配置和OpenSSL自签证书配置两种方式来让你的网站从HTTP转换到HTTPS，为系列第二篇，希望这两篇关于HTTPS的浅析能够对你的日常研发过程有所帮助。

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

紧抓多媒体生态趋势，将浏览器、WebAssembly和Rust等热点结合
熟知播放器工作原理，为实现商业化H.264/H.265播放器打下坚实基础
课程包含图文、代码、视频，降低学习门槛
李超精准讲解，及时详细解答

↑识别上图二维码或点击上图立即订阅。

介绍用于图像识别的五大最佳编程语言！
随着人工智能的普及，未来图像识别将越来越受欢迎，图像识别工程师的薪资也让非常多人眼红，想要转行拿高薪，却不知该如何入门！，最好的入门方向就是先学习一门适合图像识别的编程语言。编程语言那么多，最适合图像识别的是哪种呢？

COIN：用隐式神经表示法进行压缩
不同于基于混合编码框架的传统图像编码标准，COIN 利用隐式神经表示法，实现了图像的压缩。

图像对比度增强的硬件实现
本文将介绍一篇2014年发表于TIP的论文，该论文基于AGCWD算法实现了其硬件实现，并提出了一些硬件优化的方案，其方案主要包括算法层面的硬件适应修正以及相应的电路结构优化。

Android相机延时摄影是如何实现的
本篇文章我们来简单聊聊如何实现延时摄影这个功能，延时摄影又叫缩时摄影、间隔摄影或者定时定格摄影，是一种将画面拍摄频率设定在远低于一般观看连续画面所需要频率的摄影技术。

课程 "GAMES101" : 现代计算机图形学入门 —— 光栅化成像
本文将整理 GAMES101 现代计算机图形学第一组成部分：光栅化成像，主要内容包括：变化、光栅化、着色三个部分的基础知识及原理。

浅谈如何基于深度方法进行三维重建（续）
本文继续带大家了解场景三维重建的一些优秀文章。基于深度图融合方法，尝试直接预测有向距离场（SDF）或截断有向距离场值（TSDF）或occupancy value，从而进行三维重建。

BEV和单目图像车道线检测方法总结
本文主要对主流的车道线检测（包括BEV视角和图像视角）方法进行总结。由于基于深度学习的方法性能远超传统方法，所以本文只总结了基于学习的方法。

机器视觉光源颜色选型攻略
机器视觉光源的作用是将被测物体与背景明显分别，获取高品质的图像，在视觉系统中起着重要作用，选择合适的光源是视觉系统搭建的重要环节。机器视觉光源除了有很多类型也有不同的颜色区分，具体应该如何选择呢？

双目视觉测距原理，数学推导及三维重建资源
通过对两幅图像视差的计算，直接对前方景物进行距离测量，双目摄像头的原理与人眼相似。人眼能够感知物体的远近，是由于两只眼睛对同一个物体呈现的图像存在差异，也称“视差”。

覆盖100余篇论文，这篇综述系统回顾了CV中的扩散模型
在这篇论文中，来自布加勒斯特大学、中佛罗里达大学的 Mubarak Shah（IEEE Fellow）等几位研究者对计算机视觉中的 100 多篇去噪扩散模型论文进行了全面回顾。

简单易懂的讲解深度学习（入门系列之九）
损失函数是用来评价模型的预测值与真实值的不一致程度，它是一个非负实值函数。通常使用 L(Y,f(x)) 来表示，损失函数越小，模型的性能就越好。

机器学习中常用的9种距离
在这篇文章中，我们将介绍许多距离度量方法，并探讨如何以及何时可以最好地使用它们。最重要的是，我将谈论它们的缺点，以便你能认识到什么时候应该避开危险。

综述论文：机器学习中的模型评价、模型选择与算法选择！
本论文回顾了用于解决模型评估、模型选择和算法选择三项任务的不同技术，并参考理论和实证研究讨论了每一项技术的主要优势和劣势。进而，给出建议以促进机器学习研究与应用方面的最佳实践。

机器学习领域最全综述列表！
本文给大家分享github上的干货，一个『机器学习领域综述大列表』，涵盖了自然语言处理、推荐系统、计算机视觉、深度学习、强化学习等主题。

PyTorch深度学习实战：构建神经网络模型(上)
本文继PyTorch深度学习实战：数据读取，基于时间序列预测 Autoformer 源码深入研习深度学习流程管道进行拆解，按照从数据获取与处理，构建模型，模型训练和预测以及其他的一些模块的顺序进行深入研习。

PyTorch深度学习实战：构建神经网络模型(下)
本文是构建神经网络模型的下半部分。上部分主要介绍了模型构建通用方法，接下来我们根据模型架构原理具体学习一个完整神经网络模型的代码实现。

L0到L4超全介绍！30+自动驾驶方案汇总
本文对自动驾驶等级进行了详细全面的介绍，其中主要介绍了L0-L4等级的相关功能。

超大超全！万字长文详解多领域实时目标检测算法（2022最新）
深度神经网络的最新进展带来了目标检测领域的显著突破。目标检测通过提供目标的位置以及类别标签和置信度分数来同时完成分类和定位。目标检测器可用于多种应用场景，例如自动驾驶系统(ADS)、监控、机器人和医疗保健。

一文聊聊驾驶员疲劳检测系统
DMS为车内人机交互的一大应用领域，DMS在发现驾驶员出现疲劳、打哈欠、眯眼睛及其他错误驾驶状态后，DMS系统将会对此类行为进行及时的分析，并进行语音灯光提示，起到警示驾驶员，纠正错误驾驶行为的作用。

万字综述自动驾驶决策规划中的问题与挑战
随着自动驾驶等级的不断提高，决策规划层作为自动驾驶的大脑，其重要性也随之提高。但与人脑相比，自动驾驶的这颗大脑还有太长的路需要追赶。本文将通过万字详述路径规划中的Motion Planning存在的问题与挑战。

谈一谈自动驾驶中的MPC控制
目前的车辆控制中，最火的控制器就是MPC了。在学校，如果你不做MPC控制，不懂MPC控制，是绝对不好意思说是做车辆控制的。

字节首款VR头显来了：2992元起，光学清晰度提升86%，不拿手柄也能玩
字节跳动在耗资90亿元收购PICO一年多之后，终于推出了自家首款VR头显。这一回，字节一口气推出了两款VR产品：PICO 4和PICO 4 Pro，并都将面向全球市场发售。

国内首个“元宇宙”专业引热议：南京双一流高校推出，3年前刚成立AI学院
一所“双一流”高校，将有着25年历史的“信息工程系”，改名成了“元宇宙工程系”？！自元宇宙大火到现在，这还是“第一个吃螃蟹的高校”。

Meta用一个头显搞定全身动捕，无需手柄和下身传感器，网友：VR终于少点物理挂件了
现在，Meta终于迈出了一大步——只凭头显（甚至不用手柄），就能搞定全身动捕，连双腿的不同动作都预测得一清二楚。有网友调侃，小扎的元宇宙终于要有腿了！

钉钉，元宇宙的“另类”入局者
在9月21日的“数字韧性”2022年秋季钉峰会上，钉钉副总裁、智能硬件生态负责人林锋发布了钉钉与伙伴联手落地的三种解决方案——虚拟演播厅、数字展厅解决方案，以及数字人门禁。这样来看，钉钉入局元宇宙可能不是玩票性质。

活动推荐

抢滩未来音视频引领新趋势

全真互联时代，音视频技术已然成为企业数字化进程中的关键路径，实时、高清、沉浸的互动体验在各行各业中起到了至关重要的连接与沟通价值。技术的内核更新迭代，新的交互，新的玩法层出不穷，在未来“视界”里如何乘风破浪，抢滩未来，成为行业关注和热议的话题，本场活动我们邀请到多位专家工程师，跟大家分享腾讯云音视频在技术探索和应用实践的思考，期待与您一起探讨，共同谱写音视频技术新蓝图。

视频化升级新思路 —— StreamLake音视频技术创新与应用

视频化已是各行业大势所趋，该趋势激发出多元化需求。面临机遇与挑战，StreamLake专注于成为视频化升级助推器，推出了视频化升级全链路解决方案。结合行业发展最新动态，聚焦极致体验，StreamLake围绕音视频和AI，从生产到消费，从汇聚到分发，打造端云一体的产品和方案。本次专场将为大家分享StreamLake在媒体处理、媒体传输协议、播放器等方向上最新进展与落地应用。

探索娱乐视听技术与体验的新乐章

QQ音乐的全新一代听歌识曲技术如何在保持技术领先的现状下创新和突破？QQ音乐的银河音效如何突破传统DSP思路，进行技术升级，并形成高活跃的音效社区？全民K歌的唱歌评分如何全面升级？智能品鉴如何从多维度挖掘优质歌手和UGC作品给用户带来收益？元宇宙大背景下，虚拟世界和音乐如何结合？Music XR Maker 如何用AI驱动的方式打造一场虚拟偶像音乐表演？本专场腾讯音乐的天琴实验室及银河音效团队，将以音频为核心与大家一同探讨多媒体技术的现状、实现与思考，希望促进行业间的交流、探讨以及合作。

RTE 2022 第八届实时互联网大会，我们邀你一起“聚享万象”！

etaverse 元宇宙概念方兴未艾，由此衍生的 3D 语聊房、3D K歌房、3D 直播、互动游戏等新潮玩法为社交娱乐提供了全新的想象空间。实时互动技术正在以“润物细无声”的方式浸入人们生活的放放面面。在这样的背景下，今年的「RTE 实时互联网大会」如约而至，将以主题日的全新形式开启线上议程，分享内容全面覆盖技术、产品、行业、生态、公益等实时互联网行业的相关话题。点击「阅读原文」免费报名，限时预约元宇宙会场坐席~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章