音视频技术开发周刊 | 291

科技

2023-04-30 04:04

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

谷歌将 AI 芯片团队并入云计算部门追赶微软和亚马逊

OpenAI推出的ChatGPT获得一定成功，微软是OpenAI的重要投资者，它将ChatGPT植入必应搜索，威胁到谷歌搜索地位。谷歌将会整合旗下两个AI研发实验室DeepMind和谷歌Brain，以增强公司AI部门实力。

Google DeepMind最新研究：如何将人类价值观融入AI？

政治哲学家 John Rawls 在《正义论》中探讨共生社会下的道德问题时，提到了一个旨在帮助确定群体决策公平原则的思想实验——无知之幕，Google DeepMind 认为，它可能是在管理 AI 时选择分配原则的合适机制。

美国NMA正式发布，ChatGPT等生成式AI监管原则

这是美国第一家权威机构正式发布的生成式AI监管原则，本次原则包括知识产权、透明度、问责制、公平、安全和设计6大部分，适用于文本、视频、图片、音频等其他格式的AI生成内容。

国内首个类 ChatGPT 模型：复旦大学 MOSS 正式开源，RTX 3090 显卡可运行

目前，MOSS 模型已上线开源，相关代码、数据、模型参数已在 Github 和 Hugging Face 等平台开放，供科研人员下载。

https://github.com/OpenLMLab/MOSS

全球首个车载语音GPT发布：SoundHound Chat AI for Automotive

据悉，这款AI内置了ChatGPT等当今顶级大语言模型产品，同时也支持汽车制造商自定义集成任何第三方大语言模型，以满足特定场景业务需求。众多汽车生产商对于该产品也产生了浓厚的兴趣。

https://www.businesswire.com/news/home/20230424005379/en/SoundHound-Launches-Chat-AI-For-Automotive-As-Study-Finds-50-Of-Regular-Drivers-Likely-To-Use-Generative-AI-Capabilities

WPP收购声音品牌服务商amp，将拓展基于生成式AI的品牌体验设计

完成收购后，amp将加入WPP旗下的品牌和设计咨询公司Landor & Fitch，增强后者在提供沉浸式品牌标识方面的专业知识，从而改变客户体验并使客户品牌在竞争激烈的市场中脱颖而出。

OpenAI将发布企业版订阅服务ChatGPT Business

OpenAI计划为ChatGPT引入一个新的订阅层，以满足企业客户的需求。这款被称为ChatGPT Business的产品被OpenAI公司描述为“为需要更多数据控制的专业人士以及寻求管理终端用户的企业提供服务”。

https://techcrunch.com/2023/04/25/openai-previews-business-plan-for-chatgpt-launches-new-privacy-controls/

投资10亿美元！普华永道扩大对ChatGPT、GPT-4的应用

全球四大会计事务所之一的普华永道（PwC）在宣布，计划在未来三年内投资10亿美元，扩大对ChatGPT、GPT-4等生成式AI的应用，并帮助客户通过生成式AI重构业务流程实现降本增效。

AIGC的阿克琉斯之踵

文章总结了ChatGPT的诸多难以忽视的问题，剖析了多模态大模型的本质、前提和不足，值得一看。

https://huaweicloud.blog.csdn.net/article/details/130284728?spm=1001.2014.3001.5502

AI音乐家：给我一个prompt，帮你实现编曲自由

来，放松一下，听点AI做的音乐吧。

陆奇最新演讲实录：我的大模型世界观

奇绩创坛创始人兼CEO陆奇是中国AI布道人，也是中国针对大模型最有发言权的人之一。到现在为止，你几乎很难在公开渠道听到陆奇的观点。本文涵盖了他对大模型时代的宏观思考，包括拐点的内在动因、技术演进、创业公司结构性机会点以及给创业者的建议。

对话算想未来创始人赵亚雄：希望做“为中国 AI 经济而生的 AWS”

“未来一定是AI的世界”，赵亚雄博士的商业猜想转移到大模型。但他的商业方案“算想未来”不直接参与做大模型，而是要做大模型和AI应用的基础设施。未来“算想未来”要做AI的基础设施—— AI IaaS Cloud，区别于传统的云计算厂商，即一个以AI为导向的云计算厂商。

如何在Java Spring Boot应用程序中使用Amazon S3存储桶来存储和检索媒体文件

这篇文章提供了一个非常实用的指南，教你如何在Java Spring Boot应用程序中集成Amazon S3存储桶来存储和检索媒体文件。它涵盖了所有必要的步骤和配置，并提供了有用的技巧和最佳实践。

https://www.twilio.com/blog/media-file-storage-java-spring-boot-amazon-s3-buckets

腾讯多媒体实验室画质增强技术的前沿应用

LiveVideoStackCon 2022 北京站邀请到腾讯多媒体实验室视频技术研发负责人——夏珍与大家分享画质增强技术的一些前沿探索和应用研究，在经典影像中非常重要的画质提升技术人脸修复和去压缩失真的能力，以及在腾讯视频和云游戏中能带来画质增强的技术。

美国海军空战中心开源！首个仅使用单目拍摄地面纹理的SLAM系统

振动台系统的预防性维护

与被动维护不同，预防性测试方法为您的振动台是否会在不久的将来遇到问题提供了有价值的见解。实施预防性维护测试计划允许您在紧凑的测试计划的时间范围内规划维护，并降低计划外停机和设备故障的风险。

AudioGPT：理解并生成语音、音乐和播报

虽然ChatGPT一直在挑战我们的认知极限，但目前的大模型仍然无法处理复杂的音频信息或进行语音对话（如Siri或Alexa）。在本篇论文中，作者团队研发出名为AudioGPT的多模态 AI 系统。测试表明，AudioGPT在解决任务方面的能力，包括在多轮对话中理解和生成语音、音乐和声音中表现不凡。

http://export.arxiv.org/abs/2304.12995

SIGCOMM 2020｜LiveNAS 神经增强型实时流媒体:通过在线学习改进实时视频摄取

规模增长背后抖音如何构建直播体验优化

随着抖音直播用户持续增加，生态日渐丰富，在经历亿万规模化增长的过程之中，体验优化是必须要面对的问题，LiveVideoStackCon 2022北京站邀请到火山引擎直播技术负责人周一楠，分享抖音体验优化过程的一些探索与实践。

SIGCOMM 2020｜LiveNAS 神经增强型实时流媒体:通过在线学习改进实时视频摄取

作者提出了 LiveNAS 实时视频摄取框架，它利用超分辨率深度神经网络来增强独立于 ingest 端网络带宽的实时视频质量。LiveNAS 通过 WebRTC 在各种真实世界的网络轨迹中实现了 PSNR 相比 WebRTC 平均 1.96 dB 的整体视频质量改进，并为直播流观众带来了显着 (12%-69%) 的 QoE 改进。

NAB2023：OpenGear 和 Dante 集成以及 Bridge Live 等新功能

AJA 正在开发一种新的 OpenGear 卡，可以将 Dante 音频直接集成到 OpenGear 系统中。这样，用户就可以将音频和视频信号共享相同的设备，从而简化工作流程并提高生产效率。此外，AJA 还发布了 Bridge Live，这是一种基于云的视频编码和传输解决方案。该系统可以帮助用户实现高质量的远程视频制作，并支持多个协议和格式，如 RTMP、SRT 和 HLS。

https://www.streamingmedia.com/Articles/News/Online-Video-News/NAB-2023-AJAs-Bryce-Button-Talks-OpenGear-Dante-Integration-and-Bridge-Live-158337.aspx

Wowza Streaming Engine + AMD Alveo U30 让高密度流媒体变得简单

在本届NAB2023中，AMD宣布和Wowza达成合作，以应对在流媒体处理方面所面临的挑战，例如高负载和高延迟。AMD Alveo U30加速卡可以提供高性能和低延迟。将Wowza Streaming Engine与AMD Alveo U30集成，以便实现高密度流媒体处理。

https://www.wowza.com/blog/high-density-streaming-made-easy-with-wowza-streaming-engine-amd-alveo-u30

2023年中国智能视频编码行业白皮书

LiveVideoStackCon 2023上海讲师招募中

LiveVideoStackCon是每个人的舞台，如果你在团队、公司中独当一面，在某一领域或技术拥有多年实践，并热衷于技术交流，欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱：[email protected]。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章