音视频技术开发周刊 | 309

2023-09-03 02:09

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

腾讯云音视频及边缘平台专场邀你一起见证“连接”的力量

9月7日，腾讯全球数字生态大会之腾讯云音视频及边缘平台专场即将开启！本次专场将重点分享腾讯云音视频及边缘平台最新的战略布局、技术趋势、产品突破以及最佳实践,带领大家共同探索数字技术的无限可能，一起见证数实“连接”的无限可能。
LiveVideoStack创始人包研将出席并进行主题分享，针对“多媒体技术生态”当下的发展现状和未来趋势展开探讨。
🕰️时间：2023.9.7 14:00-16:30
📱形式：线上直播
📝报名：扫面下方二维码预约观看

沉浸新视界·「听」你所想，「见」所欲见

深圳站八折购票倒计时1天，限时优惠截止至今天！同时，我们为在校学生争取了购票的特别福利（购买学生票，请联系小秘书，微信号：LVSgogo）。准备好了吗？和诸多资深的音视频技术者一起，去见未来。

如何用AI大模型「读脑」并重建所见图像？中国科学院学者在线分享

人类视觉神经系统能够高效地感知和理解现实世界中的复杂视觉刺激，这种突出的能力是当下的人工智能系统无法比拟的。通过神经编码和解码模型来研究不同脑区的功能可以使我们更加深入地理解人类视觉感知系统。

硅谷研思录(二)：Code Llama发布，软件开发迎来智能化范式转换拐点

受Meta的资深AI专家朋友邀请到位于Meno Park的One Hacker Way总部拜访，畅谈Llama的种种。今天就看到Meta又放出大招：Code Llama，将业界一直期待的大模型的代码能力开源，软件开发迎来智能化范式转换的拐点。这正是实实在在的 Hacker精神——在使用大模型改变世界的同时，Hacker们从来没有忘记首先来变革自己。

Nature最新封面：AI战胜了人类世界冠军，创下最快无人机竞速记录

人工智能（AI）再次战胜了人类冠军。这一次，是在无人机竞速领域。来自苏黎世大学机器人与感知研究组（Robotics and Perception Group）的 Elia Kaufmann 博士团队及其英特尔团队联合设计了一种自动驾驶系统——Swift，该系统驾驶无人机的能力可在一对一冠军赛中战胜人类对手。

RetNet或成Transformer继承者？通向更快、更强、更经济的基础架构

2023 年 7 月 25 日，来自微软研究院、清华大学的学者在 Arxiv 上发布了论文「Retentive Network: A Successor to Transformer for Large Language Models」，旨在同时实现低成本推理、并行训练、较强的长序列建模能力，使 CNN、RNN、Transformer 等时代传统意义上的「不可能三角」成为了可能，可谓「质效皆优」。正如论文名所称，RetNet 有望成为 Transformer 的「继承者」，成为 LLM 时代新的支柱性基础架构。

重磅！OpenAI发布最强ChatGPT——企业版ChatGPT

8月29日凌晨，OpenAI在官网宣布，推出企业版ChatGPT（ChatGPT Enterprise）。申请地址：https://openai.com/enterprise。OpenAI表示，企业版ChatGPT提供企业级安全和数据隐私保护，提供无限速的GPT-4访问权限，支持32K上下文输入，高级数据分析功能，自定义选项等所有高级功能。这是目前OpenAI最强版本ChatGPT。

免费使用，媲美Midjourney！文本可直接生成10多种类型图片

8月29日，文本生成图片平台ideogram宣布，消除申请试用制度，免费向所有人开放ideogram v0.1。（地址：https://ideogram.ai/）。根据「AIGC开放社区」的使用体验，ideogram支持文本生成10多种类型图片，包括3D、电影、肖像摄影、插图、海报、绘画、动漫、涂鸦等，可深度理解文本提示并生成媲美Midjourney的效果图片。

LVS2023 | 从 AIGC 到多模态媒体大模型

AIGC大模型的发展正逐渐为音视频、游戏等产业赋能，而多模态大模型作为它的下一个重要发展方向，正被业界高度关注。LiveVideoStackCon 2023 上海站邀请了来自上海交通大学的宋利教授，为大家从多模态媒体生成、多模态媒体编码和多模态媒体交互三个方面展望新一代多模态媒体的特点以及未来基于大模型的智能跨模态编码的新趋势。

最新迭代｜FunASR离线文件转写软件包2.0

FunASR是由达摩院语音实验室开源的一款语音识别工具包，集成了语音端点检测、语音识别、标点预测等领域的工业级模型的训练和部署，吸引了众多开发者参与体验和开发。在7月初，FunASR社区发布了离线文件转写软件包，实现了高精度、高效率、高并发的长音频离线文件转写，并在8月份发布了支持流式语音识别软件包。

语音深度伪造技术

深度伪造（Deepfake）是深度学习（deep learning）与伪造（fake）二者的组合词，可实现图像、音频、视频的伪造生成。近年来人工智能技术发展迅速，语音深度伪造技术也日趋成熟，与之有关的一些网络安全问题也随之出现。例如2019年，有诈骗分子利用AI语音合成软件冒充英国某公司CEO的声音，通过电话诈骗了24.3万多美元，至今仍未找到幕后的罪犯。针对Deepfake语音检测的研究正在引起研究人员的广泛关注，ASVspoofing系列挑战赛也持续引领了伪造语音检测领域的发展。

一种基于压缩感知的音频同步检测方法

在本文中，作者提出了一种新的、准确的、有效的方法来检测配音音轨和相应的非配音原语音轨之间的时间同步。利用非配音音轨的可用性和现有的对口型方法，可以将“配音音频到视频”的同步检测问题简化为“配音音频到原声”的同步检测问题。作者的方法找到并比较压缩音频签名中的匹配帧，在每小时音频不到1分钟的处理时间内实现了接近完美的分类，F1得分为99.4，与未压缩的完整音频频谱图相比，内存占用相对减少约99.6%。作者认为这是第一个解决配音媒体中时间同步检测的工作。

https://ieeexplore.ieee.org/document/10031209

支持AI视频处理的高容量流媒体加速卡方案

实况直播业务随着流媒体市场的发展增长迅速。与传统流媒体“一对多”的模式不同，直播流媒体高交互的特性和 “多对多”的架构对时延的要求越来越高，传统基础设施部署和硬件已经不能高效处理这类需求。在此背景下，AMD专为直播互动流媒体处理打造的新一代Alveo™ MA35D加速卡应运而生。LiveVideoStackCon 2023 上海站邀请了来自AMD AECG的谢旻，为大家分享关于MA35D的基本架构和功能，以及该卡在各个领域视频解决方案中的应用。

金山云直播架构演进及边缘计算场景探索

在视频云升级、直播行业走向成熟的大背景下，金山云如何通过整合边缘云和相关计算能力，保持在行业的重要位置？LiveVideoStack 2023上海站邀请到金山云的朱岩老师，和大家分享金山云在直播架构方面的演进以及在边缘计算场景下的探索。

基于伪时空融合网络的高质量实时视频去噪

随着高分辨率视频录制和流媒体的可用性不断增加，需要能够处理高分辨率视频的快速和高质量的视频降噪方法。然而，许多现有方法无法同时实现高质量的去噪性能和计算效率。该文提出一种视频去噪网络，即伪时间融合网络（PTFN），以满足这些要求。PTFN采用新的伪时间融合（PTF）模块，结合时间偏移模块捕获视频帧之间的伪时间关系。PTFN还采用了现代的ConvBlock范式，摆脱了经典的ConvBlock范式，有助于降低性能和计算效率。PTFN在视频质量和计算效率方面实现了比现有视频去噪方法更好的性能。具体来说，PTFN的计算成本只有现有轻量级方法的16.7%左右，同时提高了去噪性能。PTFN在内存消耗方面也更胜一筹。它可以使用具有 1080 GB RAM 的 GPU 处理 24p 视频。此外，更轻的版本（PTFN Half）可以在相同条件下高速处理2K视频。

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10197370

音视频问题汇总--H264标准中u和ue的差别

App和第三方客户IPC进行通信时候出现崩溃了。在此记录一下该问题的排查过程。拿到客户的IPC时候，进行本地验证，也是常用的三段论逐一排查：如果是生产端或发送端的问题，则在发送端送数据之时抓包；如果是消费端或接收端的问题，则在接收端收数据之时抓包；如果是传输段问题，则通过PC或者更换设备验证；所以从发送端，接收端分别抓包，依次验证SPS，PPS参数，视频流分析，最后发现和抓包没有关系，属于App兼容性问题。

不可察觉扰动下学习图像压缩的重构畸变

学习图像压缩(LIC)以其显著的性能成为近年来图像传输技术的发展趋势。尽管它很受欢迎，但LIC在图像重建质量方面的稳健性仍未得到充分探索。在本文中，引入了一种难以察觉的攻击方法，旨在有效降低LIC的重建质量，导致重建图像被噪声严重破坏，重建图像中的任何物体几乎都不可能。更具体地说，通过引入基于Frobenius范数的损失函数来生成对抗示例，以最大化原始图像与重建对抗示例之间的差异。此外，利用高频成分对人类视觉的不敏感性，引入了不可感知约束(IC)来确保扰动保持不明显。使用各种LIC模型在柯达数据集上进行的实验证明了有效性。此外，提供了一些研究结果和建议，以设计未来的防御。

一种基于超分辨率的特征图压缩，用于面向机器的视频编码

使用神经网络的视频和图像压缩方法受到广泛关注。在MPEG标准化中，机器视频编码（VCM）是一个新出现的话题，它试图压缩特征/图像以用于机器视觉任务。特别是压缩功能在隐私保护和计算卸载方面具有优势。在本文中，提出了一种配备超分辨率（SR）模块的有效特征压缩方法。主要动机来自观察，即特征对空间失真（例如AWGN，模糊，量化失真，编码伪影）具有一定的鲁棒性，这导致我们将SR模块集成到压缩框架中。进一步探索了所提方法的最佳训练策略，即找到各种损失和适当输入特征形状的最佳组合。综合实验表明，采用通用视频编码（VVC）的方法在各种QP值上优于原始VCM锚定场景的基线。具体而言，与传统的P层特征图压缩方法相比，该框架在OpenImage数据集上的目标检测任务中实现了高达50%的BD率降低。

https://ieeexplore.ieee.org/document/10078247

树莓派的自动白平衡算法

本文介绍了树莓派的自动白平衡算法。树莓派的3A都是放在linux的userspace，并且开源。相机驱动则是放在kernel层，所有ISP的相关驱动都是由博通负责，与GPU代码被一起封装成库，不开放给用户。camera sensor的驱动文件是开放的，但是因为调用sensor驱动的代码不开放，所以用户也没法自己添加新的image sensor驱动。AWB代码文件是awb.cpp，这部分是完全开源的。

单目车道建图突破：港科大Catmull-Rom样条引领潮流

在这项研究中，引入了一种在线单目车道测绘方法，该方法仅依赖于单个摄像头和里程计来生成基于样条的地图。提出的技术将车道关联过程建模为利用二分图的分配问题，并通过结合倒角距离、姿态不确定性和横向序列一致性来为边缘分配权重。此外，精心设计控制点初始化、样条参数化和优化，以逐步创建、扩展和细化样条。与之前使用自行构建的数据集评估性能的研究相比，实验是在可公开访问的 OpenLane 数据集上进行的。实验结果表明，此建议的方法提高了车道关联和里程计精度，以及整体车道地图质量。

开源固态LiDAR-IMU导航：FF-LINS技术揭秘

现有的LiDAR惯导系统大多基于帧到地图的配准，导致状态估计中的不一致性。最新的非重复扫描模式的固态激光雷达使得通过帧到帧的数据关联实现激光雷达-惯性估计器的一致性成为可能。本文提出了一种适用于固态激光雷达的健壮一致的帧间激光雷达惯性导航系统( FF-LINS )。在以INS为中心的LiDAR框架处理下，利用积累的点云构建关键帧点云地图，构建帧间数据关联。利用因子图优化将LiDAR帧间和惯性测量单元( Inertial Measurement Unit，IMU )预积分测量紧密集成，并对LiDAR - IMU外参和时延参数进行在线标定。在公共数据集和私有数据集上的实验表明，提出的FF - LINS比现有的系统具有更好的准确性和鲁棒性。此外，LiDAR - IMU外参数和时间延迟参数得到有效估计，在线标定显著提高了位姿精度。

Meta专利为AR眼镜无线网络环境提出弹性渲染技术

长期以来，AR技术一直面临着渲染虚拟对象的延迟问题。轻量级AR眼镜具有较低的处理能力、低分辨率摄像头和/或相对简单的追踪光学器件，这在提供高质量AR内容和在较差的无线网络条件下传输图像数据方面存在问题，所以，Meta在名为“Resilient rendering for augmented-reality devices”的专利申请中提出可以通过多种弹性渲染技术来应对挑战。

学习在远程渲染的虚拟现实中预测头部姿势

虚拟场景中头戴式显示器(HMD)姿态的准确表征对于扩展现实(XR)中沉浸式图形的渲染至关重要。远程渲染使用云中或网络边缘的服务器来克服独立或捆绑HMD的计算限制。但是，它增加了用户体验的延迟;因此，只要达到较高的精度，提前预测头戴式是非常有益的。这项工作通过考虑六个自由度，提供了远程渲染虚拟现实(VR)中预测HMD姿势的解决方案的全面表征。具体来说，它提供了姿态表示、预测方法、机器学习模型的广泛评估，以及多种模式的使用，以及联合和单独的训练。特别提出了一种新的姿态三点表示方法和一种用于长短期记忆(LSTM)神经网络的数据融合方案。研究结果表明，机器学习模型受益于使用多种模式，即使简单的统计模型表现得非常好。此外，联合训练可与精心选择姿态表示和数据融合策略的单独训练相媲美。

https://dl.acm.org/doi/10.1145/3587819.3590972

苹果AR/VR专利针对物理环境光干扰提出颜色校正解决方案

对于AR，来自物理环境的光的亮度或色度会干扰计算机生成内容，从而减损用户体验。苹果认为，传统的颜色校正方法不能有效地解释来自物理环境的光。所以在名为“Color correction pipeline”的专利申请中，这家公司提出了一种颜色校正管道。

芯片集成度飙升，物理验证成为关键

在这个技术日新月异的时代，一个不争的事实是，我们已经迈入了芯片集成度迅速提升的阶段。随着5G、自动驾驶、人工智能等领域的飞速发展，对芯片性能的需求也急剧增加。这种挑战驱动芯片制造商走向更高的集成度，增加更多的晶体管，引入先进的光刻技术，并不断探索尖端的芯片工艺和封装方式。一颗表面微小的芯片内部蕴藏着千丝万缕的设计细节。因此，对芯片设计的电路布局、连线以及物理特性进行及时的验证和确认至关重要。哪怕是一小步的差错，都有可能导致整体失效，这凸显了物理验证在芯片设计中的关键地位。

详解四大芯片互连技术

英特尔联合创始人戈登摩尔曾预言，芯片上的晶体管数量每隔一到两年就会增加一倍。由于图案微型化技术的发展，这一预测被称为摩尔定律，直到最近才得以实现。然而，摩尔定律可能不再有效，因为技术进步已达到极限，并且由于使用极紫外 (EUV) 光刻系统等昂贵设备而导致成本上升。与此同时，市场对不断完善的半导体技术的需求仍然很大。为了弥补技术进步方面的差距并满足半导体市场的需求，出现了一种解决方案：先进的半导体封装技术。尽管先进封装非常复杂并且涉及多种技术，但互连技术仍然是其核心。本文将介绍封装技术的发展历程以及 SK 海力士最近在帮助推动该领域发展方面所做的努力和取得的成就。

倒装芯片技术—Flip Chip Bonding

从事半导体行业，尤其是半导体封装行业的人，总绕不开几种封装工艺，那就是芯片粘接、引线键合、倒装连接技术。尤其以引线键合(Wire Bonding)及倒装连接(Flip Chip Bonding)最为常见，因为载带连接技术(TAB)有一定的局限性，封装上逐渐淘汰了这种技术。倒装芯片技术是通过芯片上的凸点直接将元器件朝下互连到基板、载体或者电路板上。引线键合的连接方式是将芯片的正面朝上，通过引线(通常是金线)将芯片与线路板连接。

挑战英伟达H100霸权！IBM模拟人脑造神经网络芯片，效率提升14倍，破解AI模型耗电难题

最近，IBM推出一款14nm模拟AI芯片，能效已达最先进GPU的14倍。英伟达的芯片垄断，或许有望被打破了？

火山引擎首次发布自研视频芯片，“抖音同款”走向千行百业

火山引擎作为字节跳动旗下云服务平台，最初主要服务于字节跳动内部产品，而随着内部产品覆盖面、影响力的扩大，火山引擎的技术也愈发成熟，近两年技术逐步外溢到B端市场，惠及千行百业。

对话火山引擎侯爽：字节原生的边缘云

相对于集中式的数据中心，建设边缘节点要面临的基础设施更加多样复杂，而边缘云承载的业务需求也更加离散，找到一条健康可持续的边缘云业务发展路径将会是个巨大挑战。作为火山引擎边缘云负责人，侯爽详细分享了如何利用字节跳动的业务优势，数据驱动，联合众多的合作伙伴实现这个高难度的任务。

视频化时代，如何把握增长密码？

视频时代下，增长的压力扑面而来。视频业务该如何找到新的增长途径，解决当下业务要突破的问题，带来新的增长？本次火山引擎「视象新生」圆桌围绕主题与行业大咖们开展了一次深入浅出的讨论，希望对你有所帮助。要相信，越是艰难的情况下，越有新的机会出现。

▲点击“阅读原文” ▲

跳转LiveVideoStackCon 2023 深圳站官网，了解更多信息

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章