音视频技术开发周刊 | 303

科技

2023-07-23 04:07

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

消费级超写实虚拟人，AI 时代的肉身

消费级虚拟人的“最后一公里”。

上线高级搜索功能|百度网盘：你只管说，我们帮你找

百度网盘还上线了视频搜索功能，打破了传统手机或网盘相册只能搜索照片的限制，帮你迅速、精准地找到自己想找的视频。这背后既离不开功能强大的 AI 大模型、海量计算调度，也离不开细致的工程努力。这篇文章将逐一科普。

傻瓜生图器炸场，火柴人秒变福尔摩斯！Stability AI最新绘图神器让涂鸦秒变大片

零门槛就能晋升插画师，简单勾勒个草图就能得到电影级大片。Stability AI的全新作图神器，简直要让画师和设计师原地失业了！

高盛两万字报告首发：生成式人工智能，到底是炒作还是真正的变革？

高盛的经济学家随后评估了人工智能对生产力和经济增长的潜在巨大影响。高盛的股票策略师估计，生成式人工智能技术可能推动美国股市在中长期内的显著上涨，不过他们也警告称，过去的生产率繁荣导致股票出现泡沫，并最终被刺破。

高盛还讨论了人工智能领域目前最引人注目的投资机会，以及投资者最应关注的近期风险。

国家网信办等七部门联合公布《生成式人工智能服务管理暂行办法》

国家互联网信息办公室有关负责人表示，出台《办法》，旨在促进生成式人工智能健康发展和规范应用，维护国家安全和社会公共利益，保护公民、法人和其他组织的合法权益。

大模型走向终端，芯片怎么办？

人工智能已经成为半导体行业过去几年最重要的新推动力。而去年以ChatGPT为代表的大模型更是进一步点燃了人工智能以及相关的芯片市场，ChatGPT背后的大模型正在成为下一代人工智能的代表并可望进一步推进新的应用诞生。

芯片设计全流程概述

芯片设计分为前端设计和后端设计，前端设计（也称逻辑设计）和后端设计（也称物理设计）并没有统一严格的界限，涉及到与工艺有关的设计就是后端设计。

新一代直播场景下，视频加速卡在狂奔

实况直播市场究竟有多大？2021年数据显示，全球视频市场超70%的份额由直播内容主导。相较于传统的直播场景，新一代的直播场景主要为多对多模式，即每个人都是主播。在如此实时、交互式的应用场景下，低延迟、大容量、降低带宽……如何适应新的变化带来的成本压力？新的架构何时出现？带着这样的疑问，LiveVideoStackCon2023 上海站音视频技术大会邀请到AMD AECG 系统方案架构师谢旻，现场为我们详细解读AMD视频加速卡的基本架构和功能，以及在各个领域的视频解决方案中的应用。

ICCV 2023开奖了！2160篇录用论文，Meta「分割一切」被接收

近日，世界三大顶级视觉会议之一ICCV公开了最新录用结果。来看看今年都有哪些论文被录用了。

改进通用最近邻搜索和分类的图像编码器

近期计算机视觉研究取得了巨大进展，出现了能够广泛适用于各种图像领域并在多种基于图像的任务中表现出色的大型视觉基础模型。然而，在这一背景下，往往忽视了基于内容的图像对图像检索。这篇论文研究了不同视觉基础模型在两个具有挑战性的基于最近邻搜索的任务（零样本检索和k-NN分类）上的有效性；建立了一个基准测试来评估各种视觉编码器及其预训练方法的性能，在这些模型的性能中观察到了显著差异。

https://dl.acm.org/doi/10.1145/3591106.3592266

贝鲁特美国大学提出在线序列化光度标定

光度校准对于许多计算机视觉应用是必不可少的。它的关键好处之一是提高Visual SLAM的性能，特别是当它依赖于直接跟踪方法时，如标准的KLT算法。另一个优点是可以从测量的强度中检索传感器辐照度值，作为一些视觉算法的预处理步骤，例如形状从阴影。当前的光度校准系统依赖于联合优化问题，这只能通过地面信息来解决。这篇论文提出了一种使用顺序估计方法解决光度参数的新方法。该方法在估计所有参数时实现了较高的精度;此外，该公式是线性的凸问题，使解快速，适合于在线应用。Visual Odometry系统的实验验证了该方法的有效性，并证明了它的优点。

十张图总结透镜成像系统基本型式

这篇文章介绍了Landscape lens（风景镜头）、Color-corrected doublet（色差校正双透镜）等镜头的成像。

解释图像美学评估：一种交互式方法

评估视觉美学对于组织和检索照片非常重要。这也是为什么有几项工作旨在利用深度神经网络自动化此类评估的原因之一。然而，这些底层模型缺乏可解释性。由于美学的主观性质，很难找到客观的真实基础和相应的解释。因此，这些模型容易受到数据所带来的社会文化偏见的影响，这引发了一系列关于伦理和技术问题的疑问。本文提出了一个可解释的人工智能框架，通过适应和结合三种类型的解释来解释美学评估的概念。

https://dl.acm.org/doi/10.1145/3591106.3592217

特种摄像头眼睛(2) :动物的广角镜头

这篇文章以广角相机的角度，介绍不同动物眼睛在大视角方面的特点。

CVPR 2023 | 将体积视频表示为动态 MLP maps

与2D视频一样，体积视频应该能够进行高质量的实时渲染，并进行压缩以实现高效的存储和传输。因此，为体视频设计一个合适的表征方式来满足这些要求仍然是一个悬而未决的问题。目前许多已有的针对动态视频的重建方法的渲染速度太慢。基于提速的方法可以加速静态场景的渲染，但是对体积视频而言所需要的空间太大。在这篇文章中，作者提出了一个新颖的体视频的表征方式，名为Dynamic MLP Maps，以有效地对动态场景的进行视角合成。具体来说，本文的主要贡献有：

1.一种新的volumetric video的表示方法，称为dynamic MLP maps，实现了紧凑的场景表示和快速推理

2.一种新的基于dynamic MLP maps的动态场景实时渲染 pipeline

3.在NHR和ZJU-MoCap数据集的渲染质量，速度和存储方面达到SOTA

HDR视频被引入到Reels

Meta使人们能够从手机的相机胶卷上传高动态范围（HDR）视频到Facebook和Instagram的Reels中。为了在HDR视频上清晰显示标准动态范围（SDR）的用户界面元素和覆盖层，技术人员将它们呈现为与视频本身相当的亮度水平。通过解决各种技术挑战，确保在人们每天使用的各种新旧设备上平稳过渡到HDR视频。

https://engineering.fb.com/2023/07/17/video-engineering/hdr-video-reels-meta/

CVPR 2023 | D-NeRV：面向不同视频的可扩展神经表示

这篇文章主要介绍了一种名为D-NeRV的框架。该框架将每个视频解耦为特定的视觉内容和运动信息，并分别对其进行建模。此外，该框架引入了时间推理和任务导向流等技术，以更好地处理视频中的全局时间依赖性和空间冗余性。D-NeRV框架的引入旨在提高视频编码的效率和压缩结果。

Monibuca 中的内存复用

Go语言本身具备出色的性能，然而在流媒体服务器这种CPU密集+IO密集的双重压力下，GC带来的性能损失是最主要的矛盾。而减少GC的操作最直接的办法就是减少内存申请，多多复用内存。这篇文章围绕内存复用这个主题，把M7S中相关技术原理讲解一遍，也是M7S性能优化的历程。

IEEE ICME 2023论文｜基于交互式注意力的语音情感识别联合网络

这篇论文提出了一个单独频谱模型和一个结合了预训练模型和频谱模型语音情感识别联合网络。首先设计一个频谱模型提取到语音情感的特性表征，再通过Wav2Vec2.0[2]预训练模型学习到语音的共有表征。通过设计不同的交互注意力模块将两个中间特征进行融合，更好地利用音频信息。并设计多分支训练策略对联合网络进行优化。在说话人无关设置下取得良好的实验结果。

INTERSPEECH2023论文解读｜BAT一种低延迟低内存消耗的RNN-T模型

RNNT语音识别模型具有流式识别出字自然流畅的特点，并且具有良好的识别效果，近年来受到研究者的青睐。然而，RNNT模型训练过程中，需要消耗大量的计算与GPU内存资源。与此同时，RNNT为了获得更好的识别效果，往往会搜索更多的上下文，进而导致识别出字延迟较高。

为了解决上述问题，这篇论文设计了一种低延迟和低内存消耗的RNNT模型。

音频文件格式--MP3 代码走读

这篇文章中作者在FFMPEG中进行代码走读，帮助读者更加全面和深入地学习和掌握MP3。

50页深度解读，陀螺研究院发布《2023上半年VR/AR行业投融资报告》

根据VR陀螺统计，2023年H1全球VR/AR投融资金额87.4亿元，同比下降73.2%。从投融资数量上看，全球VR/AR投融资事件发生127起，同比下降26.1%起，平均单笔融资额约为7000万元。

微软为AR/VR空间音频提出了一种声音参数化建模

实时声学效果的建模和渲染是非常密集的计算。如果没有复杂和昂贵的硬件，就很难呈现出真实的声学效果。对真实或虚拟场景的声学特性进行建模，同时允许声源和听者的移动，这是一个困难的问题，特别是对于复杂的场景。

在名为“Parameterized modeling of coherent and incoherent sound”的专利申请中，微软就介绍了一种声音的参数化建模。

Oculus Quest开发者分享Rift和Vive应用移植优化技巧

在Oculus Quest发售前，Oculus第三方内容主管曾表示，将PC内容移植到Oculus Quest更多的是格式化美术资源而非优化代码。

Quest第三方内容开发商Immerse曾在五周时间内实现了美术资源的再格式化，并将最初为PC开发的企业培训应用程序移植到了这款VR一体机上。他们究竟是如何做到的呢？

Google DeepMind掌舵人Demis Hassabis专访：合并后「超级单元」内幕，以及如何开展下一代模型研究

自2023年以来，Google旗下两大顶级人工智能研究团队 DeepMind 与 Google Brain 被不断推上风口浪尖，如何应对OpenAI与微软强强联合？如何组织不被看好的 DeepMind 与 Google Brain 团队合并？Google和OpenAI都没有护城河吗？团队如何开展下一代AI技术和产品探索？

近日，《Verge》采访了 Google DeepMind 的新任CEO Demis Hassabis。Demis 毫不掩饰地分享了他的思考。

AI大模型，与传统文化到底有什么关系？

关于AI大模型与传统文化领域的碰撞，访谈者认为有四个判断要点。一是二者融合产物的“形式与内容”；二是生成物的文化属性与艺术质感；三是生成物的版权；四是文化相关行业的劳动就业。

LiveVideoStackCon 2023 上海站日程发布

LiveVideoStackCon 2023 上海站音视频技术大会以「沉浸·新视界」为主题，除了探索音视频技术在不同场景下的融合与发展外，还增添了游戏、AIGC和数字化行业案例等新鲜火爆的话题。在这里，你可以感受到多媒体生态内的头部公司、顶级玩家对行业当前发展趋势、瓶颈挑战，与对未来规划的深入解读。

我们将邀请60余位顶级讲师聚集一堂，与你共同分享他们的专业见解。这是一个与业内顶尖专家进行深入交流的绝佳机会，你将有机会亲自与他们面对面，从他们丰富的经验中获得宝贵的技术心得。

▲扫描图中二维码或点击“阅读原文” ▲

查看更多LveVideoStackCon 2023上海站精彩话题

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章