音视频技术开发周刊 | 289

2023-04-16 05:04

每周一期，纵览音视频技术领域的干货。
新闻投稿：[email protected]。

搜狗创始人王小川正式对外宣布开启人工智能大模型领域创业。王小川与前搜狗COO茹立云联合成立人工智能公司百川智能，旨在打造中国版的OpenAI，研发并提供通用 AI 服务、基础大模型及颠覆性上层应用。

Google公司计划在其搜索引擎中添加人工智能聊天机器人，但Google搜索和Bard并不是替代关系

近日，Google公司首席执行官Sundar Pichai在接受海外媒体采访时提到，随着越来越多的科技公司探索在自己的服务中使用人工智能，Google公司也计划在其搜索引擎中添加人工智能聊天机器人。Google将增加对话式人工智能功能，这将帮助Google回答更广泛的搜索问题。

为何不能暂停AI研发？丨杨立昆吴恩达对话实录

在这场风波中，二人都立场鲜明，明确表态反对暂停AI研发。汽车刚发明时没有安全带和交通信号灯，Yann LeCun认为，人工智能与先前的技术进步之间没有本质上的差异。

国家互联网信息办公室关于《生成式人工智能服务管理办法（征求意见稿）》公开征求意见的通知

另外，附刘红林律师关于此《管理办法》的逐条解读

AI模型技术国家标准正式发布全球标准体系布局基本成型

使用NVIDIA DeepStream SDK 6.2进行实时追踪

https://developer.nvidia.com/blog/state-of-the-art-real-time-multi-object-trackers-with-nvidia-deepstream-sdk-6-2/

你可以用自己发明的语言和ChatGPT对话了

有网友分享了自己儿子设计的一套系统语言，并将它教给了ChatGPT，这是ChatGPT给出的答卷。

https://szopa.medium.com/teaching-chatgpt-to-speak-my-sons-invented-language-9d109c0a0f05

全球最大社交平台将通过类“ChatGPT”等AI制作广告

Meta将通过类似ChatGTP、Midjourney、Synthesia等生成式AI帮助客户制作文本、视频、音频等广告。通过这种交互式高效率制作流程，客户可以将精力、时间用在创意方面以提升整体广告展示效果。

微软研究员联合Yoshua Bengio推出AIGC数据生成学习范式Regeneration Learning

在 AIGC 取得举世瞩目成就的背后，基于大模型、多模态的研究范式也在不断地推陈出新。微软研究院作为这一研究领域的佼佼者，与图灵奖得主、深度学习三巨头之一的 Yoshua Bengio 一起提出了 AIGC 新范式——Regeneration Learning。这一新范式究竟会带来哪些创新变革？本文作者将带来他的深度解读。

清华教授：AI无法替代的人类优势，你的孩子掌握了几个？

你会害怕ChatGPT吗？害怕你或你的孩子很快就会被AI淘汰？让这篇文章来降低一下你的焦虑。

GPT将带来一场中产危机？

与之前的三次科技革命，体力劳动者被取代不同，在GPT引发的这一次，教育程度越高、入行门槛越高、收入越高的工作，会面临更大的风险，而不易被GPT替代的行业，则以体力劳动为主。

是什么让ChatGPT变得如此聪明？仍然未知的大语言模型“能力涌现”现象

快来使用snapchat Lense for teams全新出炉的20多种视频效果！

https://techcommunity.microsoft.com/t5/microsoft-teams-blog/oh-snap-let-your-silly-side-shine-with-snapchat-lenses-for/ba-p/3788722

提高云扩展性，从Bitmovin中吸取的教训

性能改进的亮点：调度决策的平均时间从40秒下降到2秒内；API消息处理器提高了3倍；编码的调用效率提高4倍等。

https://bitmovin.com/cloud-encoding-stability-scalability-improvements/

路由自适应API网关设计实践

在MicroStrategy的实际场景下，特定API服务。

实用 Web API 规范

为什么我们需要API统一规范？规范的原则又是什么？

WebGPU 在 Chrome M113中转正了

经过多年的开发，Chrome 团队发布了 WebGPU，它允许在网络上（基于Web端）进行高性能 3D 图形和数据并行计算。目前基于Web端做元宇宙、WebXR的创业者重点关注

https://developer.chrome.com/blog/webgpu-release/

封装 libdatachannel Android 库

WebAssembly 常用开发语言和工具链

FBI摧毁全球最大暗网市场“Genesis market”

联邦调查局（FBI）周三公布，以FBI为首的国际联合执法机构，摧毁了一个世界上最大的暗网市场，在17个国家逮捕了约120人。这个暗网市场从全球150万台电脑中盗窃了超过8000万个用户数据，并低价转卖给犯罪分子，一个密码最低0.7美元。

https://krebsonsecurity.com/2023/04/fbi-seizes-bot-shop-genesis-market-amid-arrests-targeting-operators-suppliers/

英特尔用于 SHIP Digital 的多芯片封装已完成第一批原型交付

国防部首席技术官徐若冰（Heidi Shyu）指出：“国防部正在采取战略措施来保护技术优势，SHIP 计划将实现美国国防部重新在微电子行业占据主导地位的承诺”。

https://www.intel.com/content/www/us/en/newsroom/news/intel-delivers-ship-prototypes-to-dod-early.html#gs.uy8926

小米发布MIJIA智能音频眼镜

眼镜采用开放声场技术，配备 128mm 大面积扬声器和 0.4mm 高振幅动圈式发声单元，续航长达 22 小时以上。

将空间音频技术普及大众 WiSA Technologies DS音频模块

复活RTMP：和OBS支持RTMP HEVC新标准

OBS 29.1支持RTMP的HEVC，所以你现在可以用OBS和SRS做HEVC的直播了。

Vivid视音频标准将落地法国推广应用

世界超高清视频产业联盟与会员单位法国Explorers公司在北京签署了内容合作备忘录，双方达成共识，法国Explorers将其用8K拍摄的16部纪录片授权给UWA联盟，这些纪录片将在中国的电视频道、互联网电视平台、IPTV平台以及终端设备播放。

CVPR 2022 | NED：自然视频中保持语音的人脸表情语义控制

本文提出了一种深度学习方法，可在自然视频中对人物的情绪状态进行真实感操纵。该方法使用3D人脸参数表示输入场景中的人物，并采用新颖的深度域翻译框架以一致且合理的方式改变面部表情，最后基于特别设计的神经人脸渲染器进行真实感操纵。

这个codec工具还蛮有意思的！

一个名叫standardTextToCode的工具，可以把指定的视频编码标准的文本里，所定义的语法元素解析过程，直接转成对应的C++代码。

Qplayer2播放器——用扩展性支撑起未来需求

LiveVideoStackCon 2022 北京站大会邀请到了来自七牛云的资深开发工程师、播放器负责人，陈军奇老师，从七牛云播放器的历史出发，为大家阐述Qplayer2播放器的具体应用。

视频化 Feed 流架构演进

TAG Video Systems 加入 Google Cloud Partner Advantage

Google Cloud Partner Advantage 计划旨在通过提供对 Google Cloud 资源、工具和支持的访问权限，帮助合作伙伴提供卓越的客户服务，同时推动增长。作为 Google Cloud Build 合作伙伴，TAG 客户将有机会在 Google Cloud 上完全运行公司的完整实时媒体性能平台，从而提高敏捷性、远程功能、资产利用率，并有可能降低运营成本。

https://ottverse.com/tag-video-systems-joins-google-cloud-partner/

拼多多名义上的新 CEO 是谁；库克暗示苹果眼镜即将到来

海信VR新头显发布，凭自研算法人体工学，能否在XR行业站稳脚跟？

元宇宙开放标准（MSF）简介

卫星物联网悄然崛起，万亿市场价值即将井喷

本文介绍了卫星物联网的发展背景、研究现状，以及未来前景。

Excel、数字化和飞书业务三件套

飞书如何走进千百行业？

荣登榜首，Te‍mu做对了什么？

音视频编解码--PNG格式--代码走读

改善Istio传播延迟

本文将展示如何识别和解决 Airbnb 的服务网格性能问题，提供对服务网格问题故障排除过程的见解。

https://medium.com/airbnb-engineering/improving-istio-propagation-delay-d4da9b5b9f90

NAB 2023：TVU Networks 推出突破性的云/本地解决方案，可随时随地进行远程制作

TVU RPS One 将在 NAB 2023 上推出，它是一种一体式混合云和工作室远程制作解决方案。新产品将 RPS 屡获殊荣、经过现场测试的同步多摄像头编码和传输功能结合在一个超紧凑和坚固的外形中，带有六个用于无线传输的集成 5G 调制解调器。

https://ottverse.com/nab-2023-tvu-networks-unveils-breakthrough-cloud/

阿里云峰会亮点一览

阿里巴巴决定未来将所有产品接入通义千问，进行全面改造。张勇表示，面向 AI 时代，所有产品都值得用大模型重做一次，基于这一信念，阿里云希望帮助更多企业用上大模型，让每家企业都能基于“通义千问”，拥有具备自己行业能力的专属大模型。

活动推荐

LiveVideoStackCon 2023上海站讲师招募中

LiveVideoStackCon是每个人的舞台，如果你在团队、公司中独当一面，在某一领域或技术拥有多年实践，并热衷于技术交流，欢迎申请成为LiveVideoStackCon的讲师。请提交演讲内容至邮箱：[email protected]。

https://sh2023.livevideostack.cn/

【公开课】BRTC视频下行弱网对抗优化

实时音视频业务场景中，用户体验至关重要。然而在复杂多变的网络环境中，低延时、高画质、高流畅度这三者往往很难兼顾。4月18日 19:00，我们邀请到了百度智能云视频云RTC技术负责人孙健为大家重点讲解在保持清晰度和流畅度不变的情况下如何进行弱网对抗优化，并详细介绍百度智能云BRTC在弱网环境下的业务实践。

时间：

2023年4月18日 19:00

报名：

扫描图中二维码或点击【阅读原文】预约报名，观看直播！

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章