音视频技术开发周刊 | 281

2023-02-12 14:02

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

ChatGPT能否取代Google、百度这样的传统搜索引擎？为什么中国不能很快做出ChatGPT？当前，对这些问题的探讨大多囿于大型语言模型（LLM）的技术可行性，忽略或者非常粗糙地估计了实现这些目标背后的经济成本，从而造成对LLM的开发和应用偏离实际的误判。

一文读懂：有关ChatGPT的十个问题

如何使用ModelScope训练自有的远场语音唤醒模型？

本文介绍魔搭社区中远场语音增强与唤醒一体化的语音唤醒模型的构成、体验方式，以及如何基于开发者自有数据进行模型的定制。

ChatGPT的前世今生，以及未来

据传，ChatGPT还成功通过了谷歌的编程面试，拿到了年薪18.3万美元的L3工程师offer。

ChatGPT横空出世，有很多你不知道的细节

1月底，美国《财富》杂志2/3月合刊的封面文章《全球爆红的ChatGPT是如何诞生的？》引爆了创投圈。

对话大模型中的事实错误：ChatGPT 的缺陷

一个引人瞩目的问题就是 ChatGPT 交互中仍会生成不少的事实性错误，对一些老幼皆知的简单问题也会一本正经的胡说八道。

音视频杂谈--ChatGPT和音视频开发

ChatGPT懂不懂音视频开发？

ChatGPT 教你 AI 绘画之 Midjourney 屠龙刀法第 1 卷

随着 AI 绘画取得了重大突破，横空出世的神器 Midjourney 也越来越被大家所熟知。如果把 Midjourney 比作屠龙宝刀，那么要用好这一利器的还得再配上一套『刀法』（提示词拼装技巧）。

2023北京，80位艺术家齐聚“大都东南”艺术科技展

卜桦、缪晓春、费俊、许毅博、田渊、邱宇等80多位艺术家的90余件人工智能、算法动画、机械装置、脑电波艺术、数据可视化、书法、绘画等多元形态作品在北京集中展出。

AR下的RTC技术与应用

LiveVideoStack很荣幸地邀请到了来自Rokid应用平台算法负责人，王文兵老师，为我们分享介绍AR下的RTC技术与应用。

ManVatar：基于运动感知神经体素的三维头像快速重建

本文提出了一种基于运动感知神经体素的快速三维头像重建方法 ManVata。ManVata是第一个将表情动作与标准外观解耦的头部模型，并用神经体素对表情动作进行建模。

FFmpeg 6.0有望在2023年秋季发布

VideoLAN 总裁 Jean-Baptiste Kempf 本周末在 FOSDEM 2023 上介绍了即将发布的 FFmpeg 6.0 版本以及 dav1d v1.1。FFmpeg 6.0的关键变化包括跨 Intel、NVIDIA 和 AMD GPU 的 AV1 硬件解码。FFmpeg 6.0 还将为 FFmpeg 命令行、RISC-V 架构优化、API 更改等带来多线程支持。

https://fosdem.org/2023/schedule/event/om_vlc/attachments/slides/5695/export/events/attachments/om_vlc/slides/5695/FFmpeg_VLC_js.pdf

AOM AV1 3.6 带来更多性能和效率优化

在使用 GCC 编译器工具链时还添加了 RISC-V 架构支持。

https://aomedia.googlesource.com/aom/+/refs/tags/v3.6.0

FreeSWITCH 1.10.9版本发布

这是一个重要的版本，包含了很多安全修复和稳定性改进。