音视频技术开发周刊 | 307

2023-08-20 09:08

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

8月22日，火山引擎视频云&AIGC技术大会即将开启！本次大会以“视象新生”为主题，聚焦体验创新，火山引擎视频云将携手投资机构、意见领袖、合作伙伴、行业代表，共话全行业视频化时代新趋势。
LiveVideoStack创始人包研将出席并主持本次圆桌对话，围绕“当下”与“突破”两个关键词展开讨论多媒体行业究竟如何平稳度过当下，并寻求技术与商业突破。
⏰ 时间：2023.8.22 14:00-18:00
🏢 地点：北京大钟寺广场1号楼

LiveVideoStackCon 2023 深圳站已启动

LiveVideoStackCon 2023 深圳站音视频技术大会以「沉浸·新视界」为主题。经过近十年的快速发展，多媒体生态正在向精致优化发展，更注重细节、成本，内卷和出海成为压力输出口。一方面，在现有市场及业务竞争仍旧相当激烈的环境下，企业开始更多关注于如何降低成本、追求更高的利润，以及面向用户提供更优质的服务与体验；另一方面，对于不断涌现的更多新的技术、场景，逐步探索并利用其创造更多的业务、产品与商业价值是各企业持续关注的目标。本次深圳站，我们拟邀请几十位来自海内外的音视频领域的专家聚集一堂，与你共同分享他们的专业见解。

超视频时代下的多媒体处理框架探索与实践

8 月 24 日，火山引擎开发者社区技术大讲堂第七期邀请到了来自火山引擎视频云的 2 位技术专家，将从火山引擎多媒体处理框架的探索与实践、抖音同款点播转码最佳实践等角度，为大家带来干货分享，帮你全面了解火山引擎视频云相关最新技术探索与实践。精彩不容错过，快来喊上小伙伴们报名观看直播吧！
⏰ 时间：2023/08/24（周四）19:30-21:00
📱形式：线上直播

报名链接：
https://developer.volcengine.com/activities/7260058812344696893?utm_campaign=20230824&utm_content=vcloud&utm_medium=os_lvs_nocontact&utm_source=community&utm_term=techtalk7

日“烧”508万，OpenAI只能活到2024？

日前，据外媒Analytics India Magazine报道，综合各项数据分析，OpenAI 目前财政状况不佳，可能在 2024 年底宣告破产。作为一手打造了ChatGPT、掀起全球大模型热的行业领头羊，OpenAI何以陷入当前处境？

GPT-4一天顶6个月，人类审核要失业？OpenAI凌晨发布重磅升级，或大量取代人类审核员

谁能想到，GPT-4都晋升「版主」了，人类要审核几个月的东西，它几个小时就可以搞定了！人类审核员恐将迎来大面积失业？

利用社会背景知识促进人工智能的负责任地应用

人工智能相关产品和技术是在社会环境中构建和部署的:即社会、文化、历史、政治和经济环境的动态和复杂集合。由于社会环境本质上是动态的、复杂的、非线性的、有争议的、主观的和高度定性的，因此将它们转化为主导标准机器学习(ML)方法和负责任的人工智能产品开发实践的定量表示、方法和实践是具有挑战性的。

https://ai.googleblog.com/2023/07/using-societal-context-knowledge-to.html

使用大型语言模型(llm)来综合训练数据

Alexa等对话代理的机器学习模型通常是在标记数据上进行训练的，但数据收集和标记既昂贵又复杂，这在开发过程中造成了瓶颈。大型语言模型(llm)的大小和计算成本不适合需要低延迟和支持高流量的运行时系统。为了使模型在运行时使用时足够轻量级，即使真实的训练数据是稀缺的，本文提出通过数据教学(TvD)，其中使用基于llm的“教师”模型为特定任务生成合成训练数据，然后使用生成的数据微调较小的“学生”模型。

https://www.amazon.science/blog/using-large-language-models-llms-to-synthesize-training-data

华为云MetaStudio多模态数字人进展及挑战介绍

数字人作为AI能力集大成者，涉及计算机视觉、计算机图形学、语音处理、自然语言处理等技术，正在金融、政务、传媒、电商等领域应用越来越广。LiveVideoStackCon 2023 上海站邀请到华为云的李明磊为我们介绍华为云在数字人领域当前的主要进展，包括2D数字人驱动、3D数字人建模、绑定、驱动、情感数字人生成等，同时介绍数字人领域的一些挑战。

堪比ChatGPT！Meta华人提出「牧羊人」Shepherd，LLaMA 70亿参数微调，评估模型生成给出建议

近日，Meta AI最新研究，提出了语言模型Shepherd，专门用于评估模型响应并提出改进建议。

亚马逊利用生成式人工智能来提高产品评论

亚马逊宣布，将开始利用生成式人工智能来帮助客户更好地了解对产品的看法，而不必阅读数十条个人评论。这家零售商表示，它将利用这项新技术在产品详细信息页面上提供一段简短的文字，突出显示客户评论中提到的产品功能和客户情绪。

https://techcrunch.com/2023/08/14/amazon-taps-generative-ai-to-enhance-product-reviews/

国产大模型顶流「讯飞星火」：图片生成、代码生成，支持插件等重磅上线

8月12日，新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》报告中，讯飞星火以总分1013分，被评为国产卓越大模型之一。（体验地址：https://xinghuo.xfyun.cn/?ch=8tcbd7p）

AIGC音视频工具分析和未来创新机会思考

LiveVideoStack 2023上海站邀请到了PPIO边缘云的创始人王闻宇，和我们分享了他针对这一问题进行的思考。本次分享包括近年音视频行业的分析、国外4款AIGC应用工具介绍、最新论文情况介绍，以及王闻宇对行业的看法和展望，以期为音视频从业者提供更具广度的行业视角。

欧洲芯片，疯狂搞事

2023年在整个芯片界，如果说英伟达是第一大狂欢者，那么欧洲芯片厂商就是舞池中的第二大主角。凭借车用芯片和SiC两大动力之源，欧洲芯片厂商财源滚滚来。在尝到丰盛甜头后，这些厂商们的眼光已经转向更大的未来，正努力布局更广袤的战场。

超详细的芯片设计过程概述

芯片是我们这个时代最最最伟大的发明之一，如果没有芯片的出现，我们很难想象如今的电子时代会是个什么样子？每个人操作着一台房子般大小的“电脑”，背着巨大的“手机”在和远方的朋友通话，而且声音极差。正是因为芯片的发明，才让所有的功能都集中在小小的指甲盖大小的芯片里面，我们普通老百姓也才能真正享受这个无线时代带来的便捷。但是，时至今日，芯片依然是卡脖子的一环。所以今天我们一起来学习一下关于芯片相关的知识。

超导，对半导体意味着什么？

LK-99成为全球科研界关注焦点的主要原因在于常温超导如果真的实现，将会使得超导的实现门槛大大降低，从而让诸多基于超导的应用得到广泛应用。而在这些基于超导的应用中，和半导体行业关系最大的，可谓就是量子计算机了。

视觉定位新突破：多伦多大学探索特征学习+图像变换

长期视觉定位是机器人和计算机视觉领域中的一个非常重要的问题，但在光照和季节引起的环境变化的场景下仍具有挑战性。虽然现有的许多研究试图通过直接学习不变的稀疏关键点和描述子来匹配场景从而解决这个问题，但这些方法处理复杂多样的场景任务仍然很吃力。近期在图像Transformer技术的发展，如神经网络风格迁移，已经成为解决这些场景差异的一种替代方法。在这项工作中，我们提出将图像变换网络Transformer和特征学习网络相结合，以提高长期视觉定位性能。

观察表面之下：眼睛凝视跟踪评估视觉注意力的科学和应用

本文概述了眼睛凝视跟踪，涵盖最先进的、正在使用的不同类型的技术、量化注意力的关键眼球运动和凝视跟踪指标、选择眼睛凝视跟踪设备时要考虑的因素，以及几种眼睛凝视跟踪应用。

https://techcrunch.com/2023/08/14/amazon-taps-generative-ai-to-enhance-product-reviews/

AR树脂光波导方案商莫界科技完成A轮融资；2030年元宇宙价值可能达到9000亿美元

近日，全息医疗培训提供商GigXR宣布推出3D医学图像学习平台DICOM XR Library。该产品由DICOM Director旗下一种基于云的医学3D模型创建和可视化工具INTRAVISION XR提供支持。

FleXR:一个实现灵活分布式扩展现实的系统

扩展现实(XR)应用程序需要具有低端到端延迟和高吞吐量的计算要求很高的功能。为了在商用设备上启用XR，许多分布式系统解决方案支持在远程服务器上卸载XR工作负载。然而，它们基于对操作因素的假设，对卸载的功能做出先验的决定，并且它们的好处仅限于特定的部署上下文。为了在各种分布式环境中实现卸载的好处，我们提出了一个分布式流处理系统FleXR，它专门用于实时和交互式工作负载，并支持灵活的XR功能分布。在构建FleXR的过程中，我们发现并解决了将XR功能呈现为分布式管道的几个问题。FleXR为XR管道的灵活分布提供了一个框架，同时简化了开发和部署阶段。我们在四种不同的发行场景中用三个XR用例来评估FleXR。在结果中，与备选方案相比，最佳情况下的分发方案最多可减少50%的端到端延迟和3.9倍的管道吞吐量。

https://techcrunch.com/2023/08/14/amazon-taps-generative-ai-to-enhance-product-reviews/

3D成像感知的现状和未来

随着科技的迅猛发展，我们正逐渐迈向一个数字化、智能化的未来。在这场革命性的变革中，3D成像和传感技术正日益成为重要的研究方向与应用领域。这项技术为我们带来前所未有的视觉体验和感知能力，推动着虚拟现实（VR）、增强现实（AR）、自动驾驶、医疗影像、工业自动化等众多领域的巨大进步。最近，Yole发布了名为《3D Imaging and Sensing 2023》的报告，其中全面调研了3D成像与传感技术的市场，并展示了相关的数据和见解。本文将对该报告进行汇总，探索3D成像与传感技术在引领我们迈向未来的过程中扮演的关键角色。

最近有一个团队就推出了CMU、IIIT Hyderabad、MIT、AIML联合开源的AnyLoc，性能非常棒，并且实验做得很详细。本文进行了细致地探讨。

视觉定位新突破：多伦多大学探索特征学习+图像变换

近期在图像Transformer技术的发展，如神经网络风格迁移，已经成为解决场景差异的一种替代方法。在这项工作中，提出将图像变换网络Transformer和特征学习网络相结合，以提高长期视觉定位性能。

AV夜话#22：AI图片编码在路上，Khronos与多媒体

上周，与中科大的刘东交流了AI编码的现状。AI编码可以分为两大类，第一种是AI与传统编码结合，第二种是端到端的AI编码。前者已经广泛应用在各个场景，巨头都有自己的相关产品，主要在前后处理部分通过AI做优化。后者可以分为图片编码和视频编码。频域信号，这对于音频编解码来说非常关键。

多”维演进：智能化编码架构的研究与实践

阿里云视频云的陈高星，跟大家分享的主题是“多”维演进：智能化编码架构的研究与实践。本次分享分为四部分：首先是视频编码与增强方向的业界趋势，其次是对在该背景下衍生的阿里云视频云智能编码架构进行介绍，以及其中关于“多”维演进的技术细节，最后是我们对于智能编码的一些思考和探索。

浅谈弱网评测

本文主要介绍了什么是弱网、为什们进行弱网测试、弱网测试的思路、弱网主要问题及其对抗技术。

Webtransport & Webcodecs 实现 RTC 及标准参与实践

李德平（火山引擎 — 字节跳动）对 W3C 和 IETF 的 WebTransport、WebCodecs 和 WebAssembly 技术进行了介绍，对比了 WebTransport 和其他协议之间的区别，并介绍了基于 WWW 的 RTC 应⽤的整体架构、传输规范、服务端和客户端 SDK 架构、视频发布到接收的流程以及方案的优点和存在的问题。

4K/8K 超高清实时处理与分发

4K/8K超高清时代的来临对于原有系统带来很多新的挑战，存储、带宽、算力成本的大幅增长也是阻碍超高清推广普及的重要原因。LiveVideoStackCon 2023上海站邀请到了腾讯云音视频的刘兆瑞分享在4K/8K超高清视频在实时编码的过程中遇到的困难以及解决方案。

ICASSP2023论文代码开源｜TOLD能对混叠语音建模的说话人日志框架

近期，阿里巴巴达摩院语音实验室的论文“TOLD: A NOVEL TWO-STAGE OVERLAP-AWARE FRAMEWORK FOR SPEAKER DIARIZATION”被ICASSP 2023 接收。该论文是达摩院语音实验室在说话人日志方向的最新成果，是对“如何显式建模混叠语音”这一问题的研究探索。论文相关代码，已在达摩院语音实验室的代码仓库 FunASR 进行开源。

音频编解码学习--MDCT 学习

在音频编解码中，MDCT变换是一个非常重要的基础概念，它在MP3和OGG介绍中都有涉及到。MDCT变换是一种数学变换，它将时域信号转换为频域信号，这对于音频编解码来说非常关键。很多编码算法都会用到MDCT变换，因此深入了解它的原理和相关代码是非常有必要的。本文将着重介绍MDCT变换的原理和实现方法，希望能够帮助读者更好地理解音频编解码的基础知识，从而提高编码的效率和质量。如果您对音频编解码感兴趣，或者正在学习相关知识，那么本文将是一个不错的参考资料。

音频文件格式--OGG代码走读

本文将以FFMPEG代码为范例进行走读，更加全面和深入地学习和掌握OGG。

WebCodecs, WebTransport, and the Future of WebRTC

是时候再次了解实时通信 (RTC) 的未来了。我们多次触及的一个领域是使用 WebCodecs 和 WebTransport 作为 WebRTC 的 RTCPeerConnection 的替代方案。主持人 Chad 邀请到的三位嘉宾分享了他们关于 W&W 的实验和经历，并对 W&W 的未来进行展望。

字节跳动的前端工程化实践

首先分析了当前前端开发领域的趋势和所面临的新挑战，包括涉及平台的增多、业务复杂度的增加以及前端团队规模的增大等。接着，分享了字节跳动针对这些挑战采取的新实践，包括 Monorepo 工具的使用、自研的 Bundler 和 Build System 工具的建设以及微前端的工程化实践。最后，介绍了字节跳动自研的诊断工具，用于有效防止应用劣化，并总结了各个工具在实践中的落地情况。

阿里云席明贤：明天的视频云2.0

本文是“解构多媒体新常态”系列文章的第二篇，LiveVideoStack对话了阿里云视频云负责人席明贤（花名右贤）。面对风云变幻的内外环境，阿里云在视频云赛道是坚定向前的，在与右贤的接触中，他给我留下非常务实的印象。对话中，右贤没有回避多媒体行业当下面临的困难以及阿里云视频云的挑战，作为多媒体圈的新人，他用了很多时间调研了解市场和客户，他坚定地选择ToB作为突破口，绘声绘色地向我描述“云养猫”、“云上艺考”、“明厨亮灶”，甚至对VCM这些技术的价值了如指掌。他认为AI将把视频云升级到2.0，他说（允许团队）要拿出更多的研发资源去做产品创新研究，投资技术不怕失败。