音视频技术开发周刊 | 281
每周一期,纵览音视频技术领域的干货。 新闻投稿:[email protected]。
本文介绍魔搭社区中远场语音增强与唤醒一体化的语音唤醒模型的构成、体验方式,以及如何基于开发者自有数据进行模型的定制。
据传,ChatGPT还成功通过了谷歌的编程面试,拿到了年薪18.3万美元的L3工程师offer。
1月底,美国《财富》杂志2/3月合刊的封面文章《全球爆红的ChatGPT是如何诞生的?》引爆了创投圈。
一个引人瞩目的问题就是 ChatGPT 交互中仍会生成不少的事实性错误,对一些老幼皆知的简单问题也会一本正经的胡说八道。
ChatGPT 教你 AI 绘画之 Midjourney 屠龙刀法第 1 卷
LiveVideoStack很荣幸地邀请到了来自Rokid应用平台算法负责人,王文兵老师,为我们分享介绍AR下的RTC技术与应用。
本文提出了一种基于运动感知神经体素的快速三维头像重建方法 ManVata。ManVata是第一个将表情动作与标准外观解耦的头部模型,并用神经体素对表情动作进行建模。
FFmpeg 6.0有望在2023年秋季发布
VideoLAN 总裁 Jean-Baptiste Kempf 本周末在 FOSDEM 2023 上介绍了即将发布的 FFmpeg 6.0 版本以及 dav1d v1.1。FFmpeg 6.0的关键变化包括跨 Intel、NVIDIA 和 AMD GPU 的 AV1 硬件解码。FFmpeg 6.0 还将为 FFmpeg 命令行、RISC-V 架构优化、API 更改等带来多线程支持。
AOM AV1 3.6 带来更多性能和效率优化
https://aomedia.googlesource.com/aom/+/refs/tags/v3.6.0
演讲者介绍了 QUIC,其优势和重要特征,并畅想了 QUIC 可以赋能的未来。
经历了三年疫情,2023年流媒体将如何发展?虽然本文主要针对海外市场,但依然值得国内借鉴,比如AIGC、远程制播等领域领先国内许多。
本文来自五源资本,通过八场线上和线下的讨论会,针对消费机器人、通用机器人、自动驾驶、3D元宇宙、大模型与NLP、AIGC等不同领域的话题,有近百位来自工业界与学术界的朋友进行了观点分享与碰撞。
专访探索AGI的孤勇者,传奇工程师John Carmack:惊讶看不到如我这样的人
Google 和 Alphabet CEO Sundar Pichai对ChatGPT的回应。
2022年32篇最佳AI论文:DALL·E 2、Stable Diffusion、ChatGPT等入选
https://hub.baai.ac.cn/view/22798
无损压缩鼻祖去世了,没有他就没有今天的Zip、PNG、MP3、PDF……
oppo加入AAC音频专利池
https://www.iam-media.com/article/oppo-joins-licensings-aac-patent-pool
Zoom全球裁员15%
https://blog.zoom.us/a-message-from-eric-yuan-ceo-of-zoom/
就在谷歌预告Bard之后,微软已经抢先推出新版Bing和Edge浏览器。
阅读/资源推荐
随着疫情防控全面放开,混合办公成为主流的协作方式,WebRTC作为主流的RTC基础技术自然也受到影响。在2023年,WebRTC代表的RTC技术会有怎样的剧本?
一起来学习图片
https://web.dev/learn-images/
活动推荐
【公开课】聊聊百度视频质量那些事儿
时间:2023年2月16日 19:00
报名:扫码关注LiveVideoStack小秘书,获得观看方式。
LiveVideoStackCon 2022北京站 一起见证多媒体趋势
时间:2023年3月31日-4月1日
报名:扫描图中二维码或点击【阅读原文】了解更多详细信息,报名参与。
微信扫码关注该文公众号作者