音视频技术开发周刊 | 283

2023-03-05 04:03

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

本文提出的隐扩散模型(LDM)在图像修补和类条件图像合成方面具有一定优势，并且在各种任务(包括文本到图像合成、无条件图像生成和超分辨率)上具有高度竞争性的性能，此外与基于像素的扩散模型相比显着降低了计算需求。

AGI也会带来严重的滥用、严重事故和社会混乱的风险。因此，OpenAI希望可以通过制定一些原则来确保 AGI 的好处最大化，并控制它的潜在巨大的风险。这些原则包括：（1）让AGI成为人类的放大器，促进人类最大程度地繁荣发展；（2）确保AGI的好处、访问权和治理得到广泛和公平的分享；（3）正确应对巨大风险，通过部署功能较弱的技术版本来不断学习和适应，以最大程度地减少“一次成功”的情况。通过这些原则，确保 AGI 的发展造福全人类。

微软发布AI模型Kosmos-1能通过视觉IQ测试

Kosmos-1可以提取图片上的问题，给图片写一段描述，通过视觉IQ测试。

https://arstechnica.com/information-technology/2023/03/microsoft-unveils-kosmos-1-an-ai-language-model-with-visual-perception-abilities/

“你的AI侵犯了我的版权”：浅谈AIGC背后的版权保护问题

2023年1月23日，美国三名漫画艺术家针对包括Stability AI在内的三家AIGC商业应用公司，在加州北区法院发起集体诉讼，指控Stability AI研发的Stable Diffusion模型以及三名被告各自推出的、基于上述模型开发的付费AI图像生成工具构成版权侵权。

阿里发布图像生成基础模型Compose

阿里巴巴团队开发的这个重磅图像生成模型 Compose，支持多重引导条件的图像生成(合成)（扩散模型）。跟 Stable Diffuison 属于同等级别的基础模型，但路线有差异。

3D感知图像生成

提供一张打了关键部分标签图片即可生成多角度的图片。

https://www.cs.cmu.edu/~pix2pix3D/

扩散模型Diffusion Models的原理浅析

扩散模型 (Diffusion Models）在今年得到了非常广泛的关注，最令人震撼的是它在人工智能创作内容AIGC (AI Generated Content)领域的表现。扩散模型在文本生成图片任务 (Text-to-Image)上表现非常出色，能够生成非常有想象力的图片。

AI 绘画神器 Stable Diffusion 玩法大测评

22年以来，以 Stable Diffusion、Midjourney、NovelAI 等为代表的文本生成图像的跨模态应用相继涌现。基于 Stable Diffusion 生成人和场景的效果都比较好，本文就带大家深入体验这款绘画软件。

2023年十大VR软件开发工具

Meta AR硬件负责人：我们在搞一些全新的东西

https://tech.facebook.com/ideas/2023/2/meta-ar-future-wearable-tech-caitlin-kalinowski/

芯片行业，新的关键词

过去的70年是半导体芯片行业突飞猛进的70年，而到了今天，芯片领域下一个创新的机会在哪里呢？在今年ISSCC的主旨演讲（Plenary）以及会议发表的论文中，我们认为核心关键词就是“系统级创新”（system inovation）。

HTTP/3落地Pinterest

HTTP/3正在不断获得新的应用部署，也有越来越多的案例证明了HTTP/3对流媒体应用的价值。随着生态逐步完善，HTTP/3份额会进一步提升。本文来自Pinterest技术博客，LiveVideoStack已获中文授权，感谢Liang Ma对本文的审校。

云游戏音视频体验优化实践

从2019年开始，云游戏的热度迅速上升，云游戏平台如雨后春笋般出现。然而，目前还未出现一个影响力大的标志性平台，并且大家对云游戏的预期与云游戏的真实现状有出入。那么，如何才能为玩家提供高画质、超流畅和低时延的游戏体验呢？本文来自智杰融兴的吴振永在LiveVideoStack Meet厦门的分享整理而成。

来了，metaIPC1.0

metaRTC推出metaIPC正式版1.0，基于metaRTC6.0最新版二次开发，metaIPC是为嵌入式/摄像头量身打造的webRTC版IPC Camera，可安装在国内大多数Soc芯片上，如在君正/瑞芯微/MSTAR/海思等等已经有多个成熟产品应用。

https://www.toutiao.com/article/7204459065487950393/?wid=1677744468700

索尼开源SRT的状态分析工具

已在GitHub上开放。

https://www.haivision.com/blog/all/sony-statistics-exporter-for-srt-available/

FFmpeg 6.0发布

在 FFmpeg 5.1 发布约 6 个月后，FFmpeg 6.0 "Von Neumann" 现已正式发布。该版本包含了许多新的编码器和解码器、过滤器以及 FFmpeg CLI 工具方面的改进。同时改变了发行方式，所有主要版本现在都会增加 ABI 版本；官方计划每年推出一个主要版本更新。

https://zhuanlan.zhihu.com/p/610383406

Chromium中的现代摄像机处理

本文整理了 Michael Olbrich 在 FOSDEM 2023 对使用 xdg-desktop-portal 和 PipeWire 在 Chromium 中开发高级摄像机 API 的介绍，包括了现状、实现、进展等方面。

浏览器关键更新（2023年2月）

来自Google官方的整理。

https://web.dev/web-platform-02-2023/

Safari 测试版16.4支持AV1

https://developer.apple.com/documentation/safari-release-notes/safari-16_4-release-notes

抖音视频不良画质检测

抖音每天的投稿量和消费量巨大，人工去线上捞取视频诊断画质问题，耗时耗力且覆盖力度不够，因此多媒体评测室针对上述痛点问题，成立了视频异常检测算法研发专项，期望通过自动化检测算法检测出线上画质异常问题。

语音识别技术在B站的落地实践

自动语音识别（Automatic Speech Recognition，ASR）技术目前已大规模落地于B站相关业务场景，例如音视频内容安全审核，AI字幕（C端，必剪，S12直播等），视频理解（全文检索）等。

趣丸科技语音转换技术的探索与实践

本文将主要介绍语音转换的基础，常见方法和模型，并结合实际业务需求，介绍趣丸科技在语音转换创新音乐玩法上的一些探索与实践。

ChatGPT负责人John Schulman：如何做好研究

让我们一起回顾研究科学家和创始成员之一John Schulman两年前的一篇博文——机器学习研究指南「An Opinionated Guide to ML Research」，文中详细讲述了从研究问题选择，到实践落地过程中最至关重要的环节。

独家专访 OpenAI 创始人：ChatGPT 及通用人工智能将如何打破资本主义？

在1月中旬参观了 OpenAI 的旧金山办公室后，《福布斯》采访了这位最近不愿在媒体上露面的投资人和企业家，与他聊了聊 ChatGPT、通用人工智能（AGI），以及他的人工智能工具是否会对谷歌搜索构成威胁等话题。

声网母公司发布2022 Q4及全年财报：Q4营收4010万美元

第四季度 Agora,Inc.实现营收4010万美元，全年总营收1.61亿美元。

Google可能在自家品牌手机上提供文本生成图功能

https://9to5google.com/2023/02/24/gboard-imagen/

阅读/资源推荐

音视频编解码--JPEG知识总结

JPEG在大约25年前开发了著名的数字图片编码标准，称为JPEG图像格式。JPEG 是联合图像专家组创建的，旨在用于照片压缩的一个标准。

ACM MMSys 2023字节跳动短视频传输挑战赛报名

多媒体系统领域的顶级学术会议ACM MMSys 2023将于今年6月在加拿大温哥华举办，本届大会的内容之一，网络传输挑战赛（Grand Challenge）由字节跳动组织承办，将聚焦短视频多源传输场景，提供首个大规模边缘节点实验平台，旨在进一步探索边缘节点在短视频下载场景的研究与应用价值。

https://www.livevideostack.cn/news/acm_mmsys_2023_bytedance_challenge/

活动推荐

倒计时：和LiveVideoStack在2023年的第一场约会

时隔15个月，再聚北京。

时间：2023年3月31日 - 4月1日

报名：点击【阅读原文】了解详细信息，报名参与。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章