音视频技术开发周刊 | 245

科技

2022-05-15 00:05

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

✦

一周简讯

✦

首个公开工作草案：Capture Handle - 屏幕共享时的引导协作

W3C WebRTC 工作组发布 Capture Handle — 屏幕共享时的引导协作首个公开工作草案：

Capture Handle - Bootstrapping、Collaboration when Screensharing。

该文档提出了一种机制，如果 CAPTR 对 APP 正在运行的标签进行屏幕捕捉，通过该机制，应用程序 APP 可以选择向另一个应用程序 CAPTR 公开某些信息。它描述了一种仅用于标签捕获的机制。capture-handle 机制由两个主要部分组成：捕获与被捕获两方面。进一步参见 W3C WebRTC 工作组主页：https://www.w3.org/groups/wg/webrtc。

Nvidia准备使用全息图技术来缩小VR头显的尺寸

让更多人利用VR头显进入元宇宙的最大障碍之一是头显本身。由于所涉及的技术要求，例如显示器光学元件，相机和传感器，大部分头显都是笨重且佩戴不舒服的。这些镜头也会对典型VR头显的尺寸和形状产生重大影响，例如Meta Quest或HTC Vive上的头显。它们使用目镜和显示面板，这些面板需要彼此保持特定的距离，以便您获得完全身临其境的VR体验。减小VR头显尺寸的一种解决方案是使用煎饼镜头来缩小镜头之间的间隙。也就是说，这种设计和方法只能提供2D体验。Nvidia通过使用全息图来帮助克服目镜和显示面板之间所需空间的问题，从而解决了这个问题，从而为访问VR内容创建了一个更薄的解决方案。

Meta用开源挑战GPT-3的语言模型

OpenAI的文本生成神经网络GPT-3是目前最先进的语言模型之一，使用了1750亿个参数，但它至今没有开源，只通过其申请及审核程序提供给学术界和商业实体使用。最近，Meta AI实验室高调宣布，开源了能挑战GPT-3的语言模型Open Pretrained Transformer（OPT-175B）。它由5个公开数据集的800GB的数据训练而成，还使用了能比拟GPT-3的1750亿个参数。然而，这个模型大小却比GPT-3小，仅为125M到175B。在人工智能圈，这算得上是一个里程碑事件。即使是在大语言模型历史上，这也是第一次毫无保留，把预训练模型、训练代码以及使用代码全部公开。

字节推出“聆镜”直播一体机及App，抢占百亿直播硬件市场

字节推出了一款名为“聆镜直播一体机”的硬件设备以及“聆镜”App。据悉，聆镜视频直播一体机是集成音视频采集、智能处理、上传传输一体化的直播专用设备，可用于社交直播、电商直播、户外直播、大型活动直播等场景。直播一体机为主播提供专业设备、降低设备调试门槛；也可以为直播基地或MCN机构打造专业的直播间，刊例价为15800元。（Tech星球）

✦

超级干货

✦

使用FFmpeg进行HLS打包——FFmpeg简单学
在本文中，我们将学习使用FFmpeg进行HLS打包。使用FFmpeg的好处在于：你可以在不离开命令行的情况下，执行提取视频、调整视频尺寸、转码、打包以及传输视频的所有操作。

十分钟完成安卓 MediaCodec 视频解码
MediaCodec是安卓自带的视频编解码工具，由于使用的是硬解码，其效率相对FFMPEG高出来不少。MediaCodec 的视频解码说难也不难，熟练了之后就是常规操作了，十分钟带你快速上手！

为什么Multi-DRM如此重要？
让我们现在来看下Multi-DRM的概念。具体来说就是理解为什么Multi-DRM如此重要，以及它可以为流媒体服务做什么。

iOS AVDemo（12）：视频解码，MP4 → H.264/H.265 → YUV 的源码丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是第十二篇：iOS 视频解码 Demo。

Android AVDemo（3）：音频封装，采集编码并封装为 M4A丨音视频工程示例
在音视频工程示例这个栏目，我们将通过拆解采集 → 编码 → 封装 → 解封装 → 解码 → 渲染流程并实现 Demo 来向大家介绍如何在 iOS/Android 平台上手音视频开发。这里是 Android 第三篇：Android 音频封装 Demo。

音视频开发之旅（八）GLSL及Shader的渲染流程
本文是对OpenGL的基本概念、语法及流程的一些介绍，这些知识和概念是非常重要的，要把这些基础知识吸收内化。

W3C: 开发专业媒体制作应用 (2)
本文中主要介绍了 clipchamp 在使用 WebCodecs 方面的工作。clipchamp 是一个完全基于浏览器的视频编辑器，能够带来云服务的便捷性以及桌面应用级的响应速度。

视频编解码芯片设计原理----13 解码错误恢复
本系列主要介绍视频编解码芯片的设计，以HEVC视频编码标准为基础，简要介绍编解码芯片的整体硬件架构设计以及各核心模块的算法优化与硬件流水线设计。

图像信号处理芯片设计原理----06 自动曝光
本系列主要介绍图像信号处理器中各核心算法模块的设计以及相关的前沿研究，以典型的相机成像系统为基础，涉及的内容包括各类缺陷校正，去马赛克，去噪，3A算法，超分，HDR，风格迁移等主题。本文将简述曝光的相关知识，并介绍自动曝光调整方法。

FFmpeg命令分析-ac
本系列主要分析各种 FFmpeg 命令在代码里是如何实现的。以 FFmpeg4.2 源码为准。

https://juejin.cn/post/7084509932912902151

W3C：媒体工作流集成（2）
介绍了一种方法来最大限度地提高网络上的媒体生产效率，即使用无代码的 iPaaS 进行媒体制作。Ed Gray 介绍了无障碍化的原则，并将可无障碍引入工具和应用程序以及对用户体验和功能集至关重要的 web 界面的创建中。

Android 图形系统概述
图形系统是 Android 中非常重要的子系统，与其他子系统相互协作，完成图形界面的渲染和显示。

视角合成视频的质量评价
本文提出了一种新的针对合成视频质量评估的时间一致性测量方法。通过比较主观评分和现有的客观指标，证明了所提出的质量评价方法的有效性。实验结果表明，所提出的时间不一致性指标与合成视频的整体质量高度相关。

WebRTC 教程 (3)
本文是 WebRTC 的第三篇教程，主要介绍了 WebRTC 的一些特性，调试方法以及相关服务器搭建方法。

WebRTC 的未来
主讲人介绍了 WebRTC 的一些新 API, WHIP(新的 WebRTC 视频采集协议的开源实现)以及 web 2.5。

ISP中的色彩处理模块
本文介绍了ISP（图像处理器）的色彩相关模块，分别是白平衡模块和色彩矫正矩阵模块。

2022最新开源时序模型汇总（含Code）
最新开源时间序列工具包。

【深度学习】小白看得懂的BERT原理
在本文中，我们将研究BERT模型，理解它的工作原理，这个是NLP（自然语言处理）的非常重要的部分。

基于OpenCV的区域分割、轮廓检测和阈值处理
OpenCV是一个巨大的开源库，广泛用于计算机视觉，人工智能和图像处理领域。它在现实世界中的典型应用是人脸识别，物体检测，人类活动识别，物体跟踪等。

超详细的AI 专家路线图！GitHub获星19.3k
这个学习路线图几乎涵盖了人工智能领域的所有内容，点点鼠标，就能链接所需知识。

目标检测入门和实现思路
本文讲解了目标检测的基本概念，分析了实现目标检测的常用思路。下一篇将介绍目标检测经典数据集—VOC数据集的基本信息，和对VOC数据集进行处理的方法。

视频目标跟踪从0到1，概念与方法
从目标跟踪的应用场景，底层模型，组件，类型和具体算法几个方面对目标跟踪做了全方面的介绍，非常好的入门文章。

FFmepg 中错误码的玄机
使用 FFmpeg 的时候，如果有错误，会返回一个负数的数字。int 型。比如典型的：AVERROR_EOF 就是 - 541478725。当我们遇到这样的错的时候，一个快速查看这个数字含义的方法就是：打开计算器！

Compose 渲染性能到底怎么样?
本文主要就是从FPS的角度来分析Compose的性能，主要包括以下内容:如何测量Compose的FPS、Compose列表渲染性能分析、Compose粒子动画渲染性能分析。

LL-DASH CMAF 低延迟直播
使用 DASH 直播时一般会有几十秒的直播延迟，对于互动直播这么高的延迟根本互不动。要降低直播延迟一般会减少视频分段时长。

如何使用 Python 模糊图像中的人脸
模糊视频或图像的特定部分是一项非常常见的任务，具有多种用例。本文我们将专注于模糊人脸，但为了做到这一点，我们首先必须检测这些人脸。

使用 Python 进行面部识别
人脸识别正在成为软件开发中的一种趋势。它有助于识别人脸并使应用程序更加健壮。在本教程中，我们将使用python和face_recognition库创建一个简单的人脸识别。

深度学习能看到的比你更多，亚像素物体计数方法介绍
我们可以使用深度学习模型在亚像素尺度上对物体进行计数吗？深度学习已经成功地在好几个任务上实现了自动化，我们想要停掉使用人工操作的任务，但是哪些任务对于人类来说是困难的呢？

实战：使用 PyTorch 和 OpenCV 实现实时目标检测系统
自动驾驶汽车可能仍然难以理解人类和垃圾桶之间的区别，但这并没有使最先进的物体检测模型在过去十年中取得的惊人进步相去甚远。在本指南中，我们将尝试向您展示如何开发用于简单对象检测应用程序的子系统，以及如何将所有这些组合在一起。

一文讲透鱼眼相机畸变矫正，及目标检测项目应用
在CV项目中，枪机、球机很常用，但是还有一个非常重要的相机-鱼眼相机，在很多遮挡严重的场景中，比如客流统计、轨迹追踪，常常由于遮挡而效果不好。因此采用鱼眼相机，是一个非常好的方式。

实时Transformer：美团在单图像深度估计上的研究
大家都知道，Transformer灵活且表示能力强大，但训练和推理开销更大，因此现在很多工作都在探索实时或slimming方法。本文探索了单图像深度估计应用中的Transformer实时设计方法。

Android NDK开发完全剖析
对那些想从Android转向音视频开发的同学来说，NDK方面的知识是不得不提的“前置条件”，因为音视频开发的主要是C/C++开发，本文的目的就是带你从0开始开始学习NDK相关的知识点。

✦

科技前沿

✦

半导体制造商瞄准下一代音频系统设计
在本文中，我们将重点介绍半导体公司在音频电子领域的三项新发展。高通公司宣布了两个用于无线收听和录音的音频平台，而意法半导体（STMicroelectronics）和罗姆半导体（ROHM Semiconductor）分别推出了扩展其音频产品组合的设备。

港中文提出 EdgeViT | 超越MobileViT与MobileNet，实现Transformer在CPU上实时
在图像分类、目标检测和语义分割方面的大量实验验证了EdgeViTs在移动硬件上的准确性-效率权衡方面与最先进的高效CNN和ViTs相比具有更高的性能。

GPUNet | 英伟达打造最强轻量化模型，让你享受高精度、高速度的同时简单部署
本文旨在利用神经结构搜索(NAS)来优化模型的推理延迟。为了实现这一目标，建立了一个分布式NAS系统来在一个新的搜索空间上进行搜索，将NAS优化模型命名为GPUNet，它在推断延迟和准确性方面建立了一个新的SOTA Pareto前沿。

一键瘦脸！浙大提出：人脸视频编辑新技术
视频可以瘦脸？来看看究竟怎么回事。最近，浙大研究团队实现了对视频中的人像进行改变，调整参数可以扩大或者缩小。

CVPR录用+NTIRE冠军！清华提出首个高光谱图像重建Transformer
清华大学、哈佛大学和苏黎世联邦理工学院等提出「多快好省」的高光谱图像重建方法 MST 及 MST++ 相继登上顶会。

腾讯AI Lab联合ETH提出合作博弈新范式，为可解释性等机器学习估值问题提供新方法
腾讯 AI Lab 与瑞士苏黎世联邦理工合作提出基于能量学习的合作博弈新范式，为可解释性等机器学习中的估值问题提供新理论新方法，论文已被 ICLR 2022 接收。

近期六项研究，AI 助力癌症筛查、医学影像
医学影像是现代医疗保健的重要组成部分，提高了各种疾病治疗的准确性、可靠性和发展性。人工智能（AI）也被广泛用于进一步增强这一过程。

CVPR2022 | 开源：基于间距自适应查找表的实时图像增强方法
近日，阿里巴巴大淘系技术与上海交通大学图像通信与网络工程研究所（简称图像所）合作论文《AdaInt:Learning Adaptive Intervals for 3D Lookup Tables on Real-time Image Enhancement》被国际顶级会议CVPR2022接收，全部代码及模型均已开源。

用于非侵入性超声脑部治疗的声学技术
由加州大学圣地亚哥分校的工程师领导的一个团队开发了一种设备，这是实现无创的、基于超声波的大脑疗法的第一步。例如，超声波目前正在临床试验中用于治疗癫痫。

✦

推荐阅读

✦

AVOD、SVOD、TVOD、PVOD：揭秘视频点播商业模式
在本文中，我们将来了解内容提供商从VOD内容中获取收益的常见方式。我们还将了解每种方式的优势和缺陷。

人工智能系统如何理解语言和视频
人类通过不同形式的组合来观察世界，例如视觉，听觉和我们对语言的理解。而机器通过算法可以处理的数据来解释世界。因此，当机器“看到”照片时，它必须将该照片编码为可用于执行图像分类等任务的数据。当输入采用多种格式（如视频、音频剪辑和图像）时，此过程将变得更加复杂。

Google I/O 2022: 促进知识和计算机技术发展
一年一度的开发者盛宴，Google I/O 2022于北京时间5月12日凌晨 01:00正式开幕，本文是 Sundar Pichai 在 Google I/O 开发者大会开幕式上发表的主题演讲全文。

我在MIT人工智能研究实验室工作一年学到的 5 件事！
在本文中，Mike Ferguson(麻省理工学院大脑和认知科学系 (MIT BCS) 研究软件工程师/ML工程师) 分享了在麻省理工学院人工智能实验室一年中学到的 5 件事，包括他生活、成功和知识的一些看法，希望你觉得有趣或有用。

VR里接吻不是梦~可穿戴口腔触觉交互技术背后
近日，卡耐基梅隆大学的一个技术攻关小组为大众展示了一种全新的交互方式：口腔触觉交互，严格上来说这是触觉反馈交互中的一种，这种全新的技术到底能够为VR的发展带来什么，有能够给虚拟现实的继续发展带来什么呢？

一文浅析自动驾驶的激光雷达与视觉融合感知
激光雷达和图像传感器各有优劣。大多数高级别智能驾驶乘用车选择将不同传感器进行融合使用，优势互补、冗余融合。这样的融合感知方案也成为了高级别自动驾驶的关键技术之一。

动态图片加两条白杠就能营造出 3D 效果？
关注到了一个神奇的效果，动态图片加两条白杠就能营造出 3D 效果，这到底是怎么回事呢？给大家分享一下其中缘由。

给音视频开发同学的一些建议
音视频开发之前算是一个相对冷门的方向，近年来稍微好一点了，市场环境打开了，想往这个方向转的人也就比较多了，但是有很多人反馈音视频不好入门，学习的东西比较多，门槛比较高，初学者往往抓不住重点，导致事倍功半。

今年NAB惊现多款杜比全景声制作工具，进一步降低制作门槛
NAB2022上发布了一系列和杜比全景声制作相关的工具。很难说内容生产和工具开发之间是怎样的关系，但是从现在看来，无疑是互相促进的 - 内容的丰富呼唤更多的工具入局，工具的多样性促进更多的内容产出。

车联网信息安全概述
本文作为车联网圈黑话第五期，通过对车联网中典型的车云架构进行剖析，分析潜在的信息安全威胁，并介绍一些通用的信息安全方案。

✦

活动推荐

【活动预告】七牛云音视频实践日 Live 2022

如果说音视频技术支撑起我们「活在云端」的理想，那么连接云上你我的关键，在于实时音视频技术 RTC。七牛云作为十一年专注于一站式视频智能的云服务厂商，有着深厚的音视频技术积累，实时音视频产品 QRTC 更是在业内广受好评。在首个议题中，我们邀请七牛云资深开发工程师石瑞伟和于佳，为我们分享 QRTC 多媒体传输技术与实践经验。

活动时间：2022年5月21日 14:00-16:00

活动形式：线上直播

报名地址：http://4o8.cn/1jiwH8（点击「阅读原文」直达）

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章