音视频技术开发周刊 | 268

2022-10-23 04:10

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

11月4日至5日即将在北京举办的LiveVideoStackCon 2022音视频技术大会，邀请业内众多企业及专家学者，将他们在过去一年乃至更长时间里对音视频在更多领域和场景下应用的探索、在实践中打磨优化技术的经验心得、对技术与商业价值的思考，与大家一同分享和探讨。为此，我们还邀请大会各专题出品人，对音视频部分关键技术当前发展现状，以及专题演讲内容中值得关注的一些亮点和关键信息进行了总结。本文内容仅供提前了解（剧透：）），更多期待来现场吧！

时间：2022年11月4日-5日

地址：北京丽亭华苑酒店

音视频开发者进阶课程｜第三讲：噪声抑制（已更新）
在上一期课程《音视频开发进阶课程|第二讲：回声消除》中，我们接触了音频前处理的概念，还认识了音频前处理的三剑客之一 AEC 回声消除。今天，我们继续来认识三剑客中的第二位：噪声抑制 ANS (Ambient Noise Suppression)。

自由视视频的主观和客观质量评价
自由视视频（FVV）的质量直接影响到视频用户的体验感受，因此，对 FVV 进行质量评价，对于指导视频的生成，提高视频用户的体验具有重大意义。本文基于这一目标，构建 FVV 数据集，并对其进行主观和客观的质量评价实验。

一看就懂的 OpenGL 基础概念（2）：EGL，OpenGL 与设备的桥梁丨音视频基础
通过《一看就懂的 OpenGL 基础概念》一文，我们介绍了 OpenGL 的角色、渲染架构、状态机、渲染管线等内容，我们接着来看看它如何在设备上实现渲染。

音视频开发之旅（34) - 基于FFmpeg实现简单的视频解码器
本文我们主要学习了解ffmpeg解码流程、ffmpeg关键的结构以及之间的关系、解码mp4为视频裸数据YUV、花屏、录屏问题分析解决。

FFmpeg filter浅析--上篇
FFmpeg的滤镜模块AVFilter是一种以管道的方式对音视频进行滤镜（filter）操作以添加特效功能的框架，原始的音频帧（如PCM）或视频帧（如YUV，RGB等）经过filter处理后，得到具有特殊效果的音频帧或视频帧。

ffmpeg加opencv的人脸采集并做出识别的实战项目！
大家好，今天给大家分享一个ffmpeg加opencv的人脸采集并做出识别的实战项目！本项目核心是在Linux平台上利用摄像头采集人脸，并进行人脸识别。

对话Jean-Baptiste Kempf：VLC将永远免费并由用户来维护
如果你正在网上搜索最好用的免费视频播放器，VLC绝对会是你的头号选择。作为一款开源软件，它的下载量已超过40亿，并收获了无数赞誉。“VLC 将永远免费并由用户来维护，” VideoLAN主席Jean-Baptiste Kempf在最近接受我们的采访时说。

收下了！超全面的开源数据集
近期，Tianchi发布了一份非常全面的开源数据集。包含了计算机视觉，自然语言处理，金融，电商，医疗，工业，农业等数据集，非常适合学习和实践。

仅需1% Embedding参数，硬件成本降低十倍，开源方案单GPU训练超大推荐模型
实验表明，Colossal-AI 仅需在 GPU 中保留 1% 的嵌入参数，仍能保持优秀的端到端训练速度。相比 PyTorch 其他方案，显存需求降低一个数量级，单块显卡即可训练 TB 级推荐模型。

开源程序员愤怒控诉！Github的「AI码农」Copilot就是寄生虫
Github去年推出的「AI程序员」Copilot曾一度受到程序员的热捧，但一个争议始终没有解决。以方便程序员写代码为名，吸血开源社区为实，Github的「AI码农」Copilot其实就是个寄生虫？

常见的嵌入式端流媒体服务器开源项目！
大家好，今天给大家汇总一些在嵌入式里面常见的流媒体服务器，在以往也有给大家简单提过，今天做一个汇总!希望对大家有用！

iOS VideoToolbox 硬编指南
调用系统 VideoToolbox 的 API 实现一个硬编很容易，仔细看看文档、了解 API 的使用实现一个基本功能相信难不倒大家。但实际工作中有许多细节，一不注意就会掉坑里，甚至有些系统性问题难以解决。

火山引擎 RTC 自研音频编码器 NICO 实践之路
火山引擎 RTC 自研 NICO编码器在完全兼容Opus 的基础上，极大提高了编码效率，并提供了超强的抗丢包能力。目前 NICO 已经成功集成进火山引擎 RTC，并应用于抖音和视频会议等业务，极大提升了弱网场景音频体验。

h264里面的rtp码流格式介绍！
H264是现在应用范围最广的视频编解码算法，其中比较引人注目的是 x264，openH264 两个优秀的开源实现，解码一般用 ffmpeg。视频图像以帧为单位输入到编码器中，输出编码后的有损压缩码流。

AVS视频编码标准的演变：20年来的创新与发展
本文先整体介绍了AVS视频编码标准过去20年的发展历程和应用情况。AVS视频编码框架由块划分、帧内预测、帧间预测、变换、量化、熵编码和环路滤波等模块组成，本文对各模块进行简要介绍。

实战｜13个Pytorch 图像增强方法总结（附代码）
使用数据增强技术可以增加数据集中图像的多样性，从而提高模型的性能和泛化能力。

各向异性扩散融合算法
本文介绍的是图像融合传统算法中的ADF (Anisotropic Diffusion Fussion) ，即各向异性扩散融合算法。该算法使用各向异性扩散和Karhunen-Loeve变换实现的红外和可见光图像融合。

在 Python 中使用 OpenCV 模块对图像进行基本操作
在本文中，我们将了解如何使用Python中的OpenCV模块创建图像、截取 2 张图像、交换它们并组合两张图像以形成单个图像。

IJCV收录！深度去模糊综述论文来了
图像去模糊是计算机底层视觉中的一个经典问题，它的目标是将输入的模糊图像中恢复成清晰的图像。近些年，基于深度学习的神经网络在该任务上取得了重大进展。本文对最近发表的基于深度学习的图像去模糊方法进行了全面的回顾。

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

紧抓多媒体生态趋势，将浏览器、WebAssembly和Rust等热点结合
熟知播放器工作原理，为实现商业化H.264/H.265播放器打下坚实基础
课程包含图文、代码、视频，降低学习门槛
李超精准讲解，及时详细解答

↑识别上图二维码或点击上图立即订阅。

【CV知识点汇总与解析】| optimizer和学习率篇
本系列文章适合Python已经入门、有一定的编程基础的学生或人士，以及人工智能、算法、机器学习求职的学生或人士。系列文章包含了深度学习、机器学习、计算机视觉、特征工程等。

入门必读系列（二）CNN经典模型
本文将对经典模型的结构设计演变做一个总结，旨在让读者了解一些结构的设计原理，产生效果的原因。在面对一个具体任务时能够准确地选择一个合理的特征提取网络，而不是随便选择一个。

机器视觉之镜头篇
简单讲镜头就是在其一端收集物体的光线，并将光线在另一端汇聚为实像，并投影到接收面的物体。此时，汇集光线的点称为焦点，镜头中心到焦点的距离称为焦点距离。

一文尽览 | 首篇Transformer在3D点云中的应用综述（检测/跟踪/分割/降噪/补全）
Transformer 一直是自然语言处理 (NLP) 和计算机视觉 (CV) 的核心。NLP 和 CV 的巨大成功激发了研究者对 Transformer 在点云处理中的使用的探索。

深入浅出，自动化视觉跟踪实战项目
本文基于Opencv算法和树莓派V3，实现了一个自动化视觉跟踪系统。作者从硬件测试到最终系统的搭建进行了详细的讲解，值得各位读者收藏学习。

卷积核的基本概况
在数学上，卷积核的标准定义是两个函数在反转和移位后的乘积的积分，那为什么在图像处理上，需要进行卷积处理呢?

机器学习基础：11 种特征选择策略总结
太多的特征会增加模型的复杂性和过拟合，而太少的特征会导致模型的拟合不足。本文的目的是概述一些特征选择策略。

防止模型过拟合的方法汇总
其实正则化的本质很简单，就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防止模型出现过拟合。

港科大提出：深度学习在全景视觉上的综述
本综述来自于香港科技大学（广州）王林团队，对现有的深度学习在全景视觉上的应用进行了全面的回顾，并提供了一些新的观点以及对全景视觉未来的应用展望。

深度学习部署神器——triton-inference-server入门教程指北
本系列讲解重点是结合实际的应用场景以及源码分析，以及写一些triton周边的插件、集成等。非速成，适合同样喜欢深入的小伙伴。

6个用于机器学习可解释性框架
可解释性旨在帮助人们理解：如何学习的?学到了什么?针对一个特定输入为什么会做出如此决策?决策是否可靠?在本文中，将介绍6个用于机器学习可解释性的Python框架。

最全自动驾驶数据集分享系列一｜目标检测数据集（3/3）
目前关于自动驾驶数据集你想知道的，应该都在这里了，这是「整数智能」自动驾驶数据集八大系列分享之系列一，本文是<系列一目标检测数据集>的第三篇，下一期我们将开始介绍语义分割数据集。

一文 Get 汽车知识的语义网络及图谱构建
作为人工智能核心技术驱动力，知识图谱可以缓解深度学习依赖海量数据训练，需要大规模算力的问题，能够广泛适配不同的下游任务，且具有良好的解释性。

一文看懂汽车算力芯片行业
汽车智能化升级带动整车半导体元器件价值提升，2020年汽车领域芯片需求量已占全球芯片市场11.4%，持续上涨的算力需求将驱动车载计算芯片市场规模增长，车载计算芯片市场将迎来高速发展期。

一文聊聊智能汽车手势交互设计
交互手势是用户操作的重要部分，交互手势的设计好坏非常影响用户体验。目前，关于手势交互的应用越来越多，我们应该如何进行产品设计？需要遵循哪些设计原则？本文作者从手势交互的优势出发，对以上问题展开了分析解答，一起来看看~

智能汽车预期功能安全保障关键技术
本综述聚焦智能汽车预期功能安全保障关键技术，分别从系统开发、功能改进和运行3个阶段进行了系统的总结，最后从基础理论、风险防护和更新机制3方面进行了展望。本文可为智能汽车预期功能安全研究提供重要参考依据。

2022智能驾驶行业研究报告
随着消费者需求不断升级，对智能驾驶功能的要求也越来越高。短期来看，预警类功能和L1~L2级别功能仍将占据市场主流，L3及以上智能驾驶技术逐渐成熟。

头显戴上就吐，小扎长腿竟是「诈骗」！烧完100亿美元，元宇宙大翻车
Meta头显才买6个月，就放在家里吃灰，很多用户还会头晕呕吐。小扎的元宇宙似乎困难重重。

如何使虚拟现实体验更加真实？（上）
本次演讲总共介绍了 5 篇论文，在现有技术的基础上，分别针对不同方面进行了研究和改进，以增加用户在虚拟现实中的互动、感受和认知，以使 VR 体验更加真实。本文上篇介绍其中的 2 篇论文。

AR破局：现有技术限制下的场景突破
观影、信息提示以及轻度的游戏，仍是目前消费端AR产品所主打的核心场景，这些场景必然是有前景的，只是，现有的技术和市场条件限制下，如何让场景体验更进一步，或许是每个产品人需要思考的。

苹果CEO库克再次预测：AR将是未来的趋势
“我认为AR是一项影响深远的技术，它将改变一切。”库克说道，“当然，VR也有其用途，它的沉浸感很强，适用于特定场景，但它并不能取代现实生活。”

StableDiffusion嵌入现实世界，能在墙上直接长出小猫咪，手机可玩
Stable Diffusion又可以搞新花活了！这一次的重点在于，Stable Diffusion的触手扩展到现实世界——和WebAR相结合。作者是个软件工程师小哥Stijn Spanhove，经常在推特主页发些关于WebAR或XR的视频。一起来看看这个有点酷的新东西吧～

活动推荐

【品牌专场】抖音背后的视频体验分析体系与优化技术揭秘

LiveVideoStackCon 2022 音视频技术大会北京站将于11月4日至5日在北京丽亭华苑酒店召开，本次大会「火山引擎」品牌技术专场重磅加盟，火山引擎视频云团队基于抖音亿级DAU实践，构建了一套能真正体现用户体验优化的指标体系，作为技术前进的指北针，并以云端一体打造音视频极致体验与成本优化。本专场将系统化解读抖音背后的云端一体的视频体验分析体系与优化技术。值得一提的是本届所有专场将以免费报名的方式邀请大家参与交流，同时我们也为参与专场的同学准备了现场惊喜大奖，让大家在LiveVideoStackCon的活动中真正的身心都愉悦。

⏰ 活动时间：2022年11月4日 14:00-17:55
🌏 活动地点：北京丽亭华苑酒店鸿运3厅

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章