音视频技术开发周刊 | 269

2022-10-30 04:10

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

「延期通知」LiveVideoStackCon 2022 音视频技术大会北京站

亲爱的LiveVideoStack伙伴们：感谢大家一直以来对LiveVideoStackCon 2022 音视频技术大会北京站活动的关注与支持。根据近期多方沟通结果，受到目前各地疫情情况及进京防控政策影响，为保证大会各方参与人员的参会体验，本次活动将延期至2022年11月25日-26日举办，给您带来的不便我们深表歉意，期待再次相聚！

⏰ 时间：2022年11月25日-26日

🌏 地址：北京丽亭华苑酒店

LiveVideoStackCon 2022 北京站

对话专栏

对话快手苍鹏：播放器还有什么新玩法？
在LiveVideoStackCon 2022北京大会前夕，我们和苍鹏畅谈了播放器的未来。苍鹏表示，快手正在探索播放器互动性方向的能力，将带来更多新玩法，例如全景视频、6DoF以及客户端3D渲染等。

对话腾讯李志成：云端渲染将从2B、游戏扩展到XR
“随着基础网络以及专用的云端渲染算力设备、相关计算、推理、编码ASIC卡生态慢慢完善以后，云游戏以及基于云渲染云原生开发平台的真正云游戏会慢慢多起来”，李志成表示，“最终，云端渲染和超低延时传输会让XR生态繁荣起来。”

对话天翼云AI产品研发总监陈金，谈谈产品研发与虚拟数字人
本次我们非常荣幸地采访到了天翼云AI产品研发总监陈金老师，和我们聊一聊产品创新所面临的挑战，并介绍了天翼云基于AI和NLP等技术所研发的数字虚拟老师目前的应用情况。

七牛宣利民：低代码也是时代发展的产物
七牛云方案生态部担任解决方案架构师宣利民认为：“低代码是时代发展的产物。”他表示，很多中小型公司内部没有一个成建制的音视频技术团队，导致在业务中引入音视频服务的研发门槛和周期都比较不理想，这是推出低代码平台的初衷。

对话声网视频算法工程师郑林儒：视频质量评价方法的最优解
我们很荣幸地邀请到了来自声网的视频算法工程师郑林儒老师，来和我们聊一聊为了满足用户需求，针对不同场景选取哪种视频质量评价方法才是最优解。

音视频同步问题（第一弹）
今天给大家分享一篇关于音视频同步的问题，本系列文章会分为几篇来分享，先从基础的音视频同步理论开始，然后再进行基于ffplay里面的源码实战来加深音视频同步的理解！

音视频开发进阶｜第六讲：色彩和色彩空间·中篇
在上一篇文章中，我们带大家了解了视频、图像、像素和色彩之间的关系，还初步认识了两种常用的色彩空间，分别是大家比较熟悉的 RGB，以及更受视频领域青睐的 YUV。今天，我们将继续深入学习 RGB、YUV 的相关内容，进一步了解它们的常见采样格式和存储格式。

基于Transformer的无参考视频质量评估
本文介绍两篇提出了基于Transformer的无参考视频质量评估模型的论文。首先对Transformer结构做简单介绍，接着详细介绍两篇论文所提出的质量评估模型。

关于 OpenGL 的一些重要概念
当我们的程序运行时，每一个方法的调用都是在 CPU 上的，OpenGL 也不例外，与普通调用的区别在于这些调用会被转换成 GPU 驱动指令在 GPU 上执行，而 CPU 和 GPU 作为两个不同的处理单元，它们之间的指令是并行执行的。

ACM MM2022｜基于多尺度 Transformer 的视频插帧方法
本文介绍使用多尺度由粗到精 transformer 的视频插帧方法。在该论文中，构建了一个两阶段的多尺度视频插帧结构，分别主要进行运动估计及特征迁移。

音视频+人脸识别实战项目规划！
给大家分享一下我准备用心做的一个实战项目：音视频+人脸识别实战开发，里面目前基本会用到ffmpeg、opencv、sqlite3等相关基础知识，还会利用到虹软的sdk，目前整个项目已经可以基本可以跑了。

Meta 开源首个 AI 语音翻译系统，闽南话和英语可以直接语音互译！
这是由 Meta 开源的第一个由 AI 驱动的非书面的、语音到语音的翻译系统。据了解，这个开源翻译系统是 Meta 的通用语音翻译(UST) 项目的一部分，该项目致力于开发新的人工智能方法，帮助实现所有现存语言的实时语音到语音的翻译。

Google开源「多语言图像描述」最强评估基准XM3600！涵盖36种语言
图像描述（Image Caption）是计算机视觉领域的一项基础任务，最近Google开源了一个全新的图像描述评估数据集Crossmodal 3600（XM 3600）包含3600张图像，每张图像都由36种语言进行描述。

NIPS2022开源！TOIST：通过蒸馏实现面向任务的实例分割Transformer
TOIST提出的面向任务的实例分割方案可以很好得在点云分割和三维重建等领域发挥作用，对于下游机器人的交互应用具有重要意义。

即将开源STD：用于3D位置识别的稳定三角形描述子
本文开发了一种新的描述子，称为稳定三角形描述符（STD），它将场景中的任意三个关键点用三角形编码。

音视频开发之旅（35) -FFmpeg + AudioTrack 实现音频解码和播放
这篇我们来实现下音频的解码器。解码流程和视频的基本一致。FFmpeg解码的音频裸数据是PCM格式，android上播放PCM音频数据可以通过AudioTrack和OpenSL ES来实现。

视频解码线程video_thread解析！
大家好，我是小涂，这周继续给大家分享ffplay播放器源码解析，上次分析完了read_thread这个线程，今天我接着分析一下之前没有介绍完的视频解码线程video_thread。

小白学深度学习：自编码器及应用场景
自编码器通常包括两部分：编码器和解码器。编码器将高维输入样本映射到低维抽象表示，实现样本压缩与降维；解码器则将抽象表示转换为期望输出，实现输入样本的复现。

ECCV 2022｜码流信息辅助的压缩视频超分框架
本工作是由上海交通大学宋利教授带领的 Medialab 实验室与华为诺亚实验室合作产出，并被 ECCV2022 录用。该工作提出了一种利用视频的编解码信息来提升压缩视频超分辨率算法效率的框架。

SRCC：AVS3-phase2中一种基于扫描区域的系数编码技术
本文基于一篇介绍基于扫描区域的变换系数编码技术的论文。该技术是视频编码标准AVS3-phase2在熵编码模块系数编码部分所采取的一种新技术。

AOM季报：AV1新解码器与IBC 2022
在第三季度，AOM积极参加行业活动，吸收了新成员Bitmovin,与Graphcore一起推进AV1，引入了Argon Streams，推动了AV1技术的发展。

https://storage.googleapis.com/downloads.aomedia.org/assets/pdf/AOMedia%20Decoder%20-%20Q3%202022%20Non-Members.pdf

图像上的 OpenCV 算术运算
图像算法对于分析输入图像的属性是必要的，可以将操作后的图像用作增强的输入图像，并且可以对图像应用更多操作，以进行阈值化、膨胀等。

「图像编辑」太卷了！谷歌最新论文发布仅6小时就被自己砸了场子
文本引导的图像生成模型火了，同时带火的还有用文本提示对图像进行修改的模型。本文将为大家介绍两个时下最新的「图像编辑」工具。第一个是浏览器中在线就能用的Runway，第二个则是Google Research最近联合魏茨曼科学研究所发布的新模型Imagic。

Android动画特效之自定义view
要实现Android动画特效，首先要掌握如何自定义view。因为不管实现Android动画特效，还是工作当中业务需求功能实现，都会经常接触到自定义view，实现自定义view也是重中之重。

做了个图片识别系统，含检测正经图片的源码
本项目将使用python3去识别图片是否为色情图片，会使用到PIL这个图像处理库，并且编写算法来划分图像的皮肤区域。

SeAFusion: 一种结合高级视觉任务的图像融合框架
今天要介绍的这篇文章以一种新的视角审视图像融合问题，即使用语义分割任务驱动融合网络。

轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造

紧抓多媒体生态趋势，将浏览器、WebAssembly和Rust等热点结合
熟知播放器工作原理，为实现商业化H.264/H.265播放器打下坚实基础
课程包含图文、代码、视频，降低学习门槛
李超精准讲解，及时详细解答

↑识别上图二维码或点击上图立即订阅。

【CV知识点汇总与解析】| 正则化篇
本系列文章适合Python已经入门、有一定的编程基础的学生或人士，以及人工智能、算法、机器学习求职的学生或人士。系列文章包含了深度学习、机器学习、计算机视觉、特征工程等。

入门必读系列（三）轻量化模型
本文，将对轻量化模型进行总结分析。轻量化模型主要围绕减少计算量，减少参数，降低实际运行时间，简化底层实现方式等这几个方面，提出了深度可分离卷积，分组卷积，可调超参数降低空间分辨率和减少通道数，新的激活函数等方法。

从「生态光学」取经，伯克利曹颖提出解决物体遮挡问题方案，登PNAS
本文描述了如何根据连续的视觉输入生成这种表面的表征。对于一些合成的背景杂乱的视频，尽管物体出现了严重的外观变化，本文提出的方法可以在无需学习的情况下分割出物体，并持续跟踪它们。

三个OpenCV目标分割计数实例(附源码)
实例核心步骤或者算法：二值化+形态学预处理、距离变换、分水岭算法。

通过大型语言模型的描述进行视觉分类
论文提出了一种新的基于视觉语言模型的零镜头分类框架。作者利用大型语言模型中关于视觉类别的语言知识，为每个类别生成文本描述符，将图像与这些描述符进行比较，而不是直接估计图像与类别名称的相似性。

7大类卷积神经网络(CNN)创新综述
本综述将最近的 CNN 架构创新分为七个不同的类别，分别基于空间利用、深度、多路径、宽度、特征图利用、通道提升和注意力。

深度学习优化背后包含哪些数学知识？
深度学习中的优化是一项极度复杂的任务，本文是一份基础指南，旨在从数学的角度深入解读优化器。

从视音角度看多模态学习的过去与未来
该综述首先分析了视音模态的认知科学基础，进而对近来的视音学习工作（近三百篇相关文献）进行了系统性的分析总结。最后，为了纵观当前的视音学习领域，该综述从视音场景理解的角度重新回顾了近年的视音学习进展，并探讨了该领域潜在的发展方向。

从第一性原理出发，分析AI会如何改变视觉内容的创作和分发
AI“画”一张图的原理是什么？它的学习方式是什么？未来AI作画会以多快的速度进步？AI作画会如何影响创作者们的利益？Draft团队从第一性原理出发，通过本文来逐个分析这几个问题。

面经｜经典算法面试题&知识点汇总（附答案）
本文总结分享了一些CV算法与机器学习相关的经典面试知识点。包括深度学习、机器学习、Python/C/C++知识、图像处理等问题。

最全自动驾驶数据集分享系列二 | 语义分割数据集
目前关于自动驾驶数据集你想知道的，应该都在这里了，这是「整数智能」自动驾驶数据集八大系列分享之系列二，本文是<系列二语义分割数据集>，共包括9个数据集。

自动驾驶的社会交互：一个综述和思考
本文回顾了建模和学习人类驾驶员之间社会交互的各种方法，从优化理论和图模型（graphical models）到社会力理论和行为认知科学。还强调了一些新的方向、关键挑战以及未来研究的开放性问题。

ADAS辅助驾驶之：TSR交通标志识别系统
在安装有安全辅助驾驶系统的车辆中，如果车辆能够提供高效的TSR系统，及时为驾驶员提供可靠地道路交通标志信息，有效提高驾驶安全性和舒适性。

实战｜OpenCV实时弯道检测(详细步骤+源码)
在任何驾驶场景中，车道线都是指示交通流量和车辆应行驶位置的重要组成部分。本文主要介绍如何使用 Python 和 OpenCV实现一个实时曲线道路检测系统。

基于纯视觉策略的BEV感知
在仅视觉系统（无雷达或激光雷达）中，几乎必须在 BEV 中执行感知任务，因为在传感器融合中没有其他 3D 提示可用以执行此视图转换。

如何使虚拟现实体验更加真实？（下）
本次演讲总共介绍了5篇论文，在现有技术的基础上，分别针对不同方面进行了研究和改进，以增加用户在虚拟现实中的互动、感受和认知，以使 VR 体验更加真实。

AR眼镜走向独立，从一个配件开始
AR要走远，能长久依赖手机这副拐杖吗？还是需要独立形态，拥有自身的内容生态圈？这次，一个巴掌大小的配件，突破了人们对于AR作为移动计算平台的想象。此前是“端”，从此加上了“云”的无限想象。

VR负面影响专题（上）
本文提出一种通过“弓箭游戏”隐含地将问卷的回答整合到实际任务中的方法，从而减少VR和non-VR之间转换对于实验带来的负面影响。

活动推荐

【品牌专场】抢滩未来音视频引领新趋势
LiveVideoStackCon 2022 音视频技术大会北京站即将在11月25日至26日在北京丽亭华苑酒店召开，本次大会「腾讯云音视频」品牌技术专场重磅加盟，本场活动我们邀请到多位专家工程师，跟大家分享腾讯云音视频在技术探索和应用实践的思考，期待与您一起探讨，共同谱写音视频技术新蓝图。值得一提的是本届所有专场将以免费报名的方式邀请大家参与交流，同时我们也为参与专场的同学准备了现场惊喜大奖，让大家在LiveVideoStackCon的活动中真正的身心都愉悦。

⏰ 活动时间：2022年11月25日 14:00-17:55
🌏 活动地点：北京丽亭华苑酒店鸿运1厅

【城市沙龙】LiveVideoStack Meet厦门：下一代互动媒体技术与产品
 受疫情影响，原定于六月举办的厦门站沙龙被迫搁置，但我们并没有放弃在厦门与大家见面，11月12日LiveVideoStack Meet将携手四位嘉宾与大家聊聊下一代互动媒体技术与产品，内容涵盖3D成像、流媒体演进历程与发展方向、云游戏背后的音视频体验优化、实时互动流媒体技术实践，精彩内容抢先看，快来见面吧。

⏰ 活动时间：2022年11月12日 14:00-17:00
🌏 活动地点：厦门市思明区莲前街道前埔路506-508号国金广场A2栋19层

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章