音视频技术开发周刊 | 283
每周一期,纵览音视频技术领域的干货。 新闻投稿:[email protected]。
ChatGPT之父Sam Altman最新文章:AGI及未来计划
微软发布AI模型Kosmos-1能通过视觉IQ测试
Kosmos-1可以提取图片上的问题,给图片写一段描述,通过视觉IQ测试。
https://arstechnica.com/information-technology/2023/03/microsoft-unveils-kosmos-1-an-ai-language-model-with-visual-perception-abilities/
阿里巴巴团队开发的这个重磅图像生成模型 Compose,支持多重引导条件的图像生成(合成)(扩散模型)。跟 Stable Diffuison 属于同等级别的基础模型,但路线有差异。
3D感知图像生成
https://www.cs.cmu.edu/~pix2pix3D/
AI 绘画神器 Stable Diffusion 玩法大测评
22年以来,以 Stable Diffusion、Midjourney、NovelAI 等为代表的文本生成图像的跨模态应用相继涌现。基于 Stable Diffusion 生成人和场景的效果都比较好,本文就带大家深入体验这款绘画软件。
一片蓝海市场之下,VR 内容生态亟待更多开发商和工作室的加入。伴随着整个 XR 产业近两年关注度的上升,各大开发引擎工具商也开始重视 XR 内容的开发布局,满足更多开发者向 XR 内容的制作需求。
Meta AR硬件负责人:我们在搞一些全新的东西
https://tech.facebook.com/ideas/2023/2/meta-ar-future-wearable-tech-caitlin-kalinowski/
来了,metaIPC1.0
https://www.toutiao.com/article/7204459065487950393/?wid=1677744468700
索尼开源SRT的状态分析工具
https://www.haivision.com/blog/all/sony-statistics-exporter-for-srt-available/
FFmpeg 6.0发布
https://zhuanlan.zhihu.com/p/610383406
浏览器关键更新(2023年2月)
https://web.dev/web-platform-02-2023/
Safari 测试版16.4支持AV1
https://developer.apple.com/documentation/safari-release-notes/safari-16_4-release-notes
抖音每天的投稿量和消费量巨大,人工去线上捞取视频诊断画质问题,耗时耗力且覆盖力度不够,因此多媒体评测室针对上述痛点问题,成立了视频异常检测算法研发专项,期望通过自动化检测算法检测出线上画质异常问题。
本文将主要介绍语音转换的基础,常见方法和模型,并结合实际业务需求,介绍趣丸科技在语音转换创新音乐玩法上的一些探索与实践。
ChatGPT负责人John Schulman:如何做好研究
独家专访 OpenAI 创始人:ChatGPT 及通用人工智能将如何打破资本主义?
声网母公司发布2022 Q4及全年财报:Q4营收4010万美元
第四季度 Agora,Inc.实现营收4010万美元,全年总营收1.61亿美元。
Google可能在自家品牌手机上提供文本生成图功能
https://9to5google.com/2023/02/24/gboard-imagen/
阅读/资源推荐
JPEG在大约25年前开发了著名的数字图片编码标准,称为JPEG图像格式。JPEG 是联合图像专家组创建的,旨在用于照片压缩的一个标准。
ACM MMSys 2023字节跳动短视频传输挑战赛报名
https://www.livevideostack.cn/news/acm_mmsys_2023_bytedance_challenge/
活动推荐
倒计时:和LiveVideoStack在2023年的第一场约会
时间:2023年3月31日 - 4月1日
报名:点击【阅读原文】了解详细信息,报名参与。
微信扫码关注该文公众号作者