Redian新闻
>
音视频技术开发周刊 | 295

音视频技术开发周刊 | 295

科技

每周一期,纵览音视频技术领域的干货。

新闻投稿:[email protected]

微软炸通Windows与ChatGPT全家桶!人手一个Copilot,AI宇宙降临

三位OpenAI掌舵人亲自撰文:我们应该如何治理超级智能?

OpenAI 的三位联合创始人——CEO Sam Altman、总裁 Greg Brockman、首席科学家 Ilya Sutskever 共同撰文探讨了如何治理超级智能(superintelligence)的问题。他们认为,现在是开始思考超级智能治理的好时机了--未来的人工智能系统甚至比AGI的能力还要大。 

InstructPix2Pix: 用于图像编辑的动态扩散模型

本文提出了一种协作扩散模型,无需重新训练已有的单模态扩散模型便可实现多模态的人脸合成与编辑。这个方法在图像质量和条件一致性方面表现出优越性。

FreestyleNet:自由式布局到图像生成

本文提出了一个基于diffusion model的框架,即FreestyleNet,其可以从给定的布局(layout)生成包含丰富语义的图像。

天琴实验室发布三项开源大模型加速版本

天琴实验室MUSELight大模型推理加速引擎已在HuggingFace公开发布三个lyra系列模型的加速版本,具体可关注HuggingFace主页:TMElyralab。

生成式 AI 与版权法

当下的主要问题集中在使用版权作品作为训练数据是否侵犯版权,以及人工智能程序的输出是否侵犯使用图像的衍生作品。

生成式AI,可以设计芯片了

百闻不如一试,目前PaLM 2已经在谷歌的Bard平台上线开放公测,因此作者也尝试使用Bard去体会了一把PaLM 2生成Verilog代码的能力。

AIGC新玩法:任意模态输入、任意模态输出

使用AI技术,帮助听力障碍者更好地生活

英特尔宣布了帮助听力损失者的新技术,其中包括一种可以实时转录语音的AI系统。系统内置于名为 SoundWatch 的应用程序中,该应用程序使用机器学习算法来检测和识别声音,它还可以为火警或门铃等重要噪音提供警报。此外,英特尔还开发了一款新的无线耳塞原型,可以帮助用户在嘈杂的环境中更好地听到对话。这些新技术有可能大大改善听力损失者的生活质量。

https://www.intel.com/content/www/us/en/newsroom/news/intel-brings-more-tech-people-with-hearing-loss.html#gs.ykq823

LIveVideoStackCon2023上海站九折期优惠进行中

https://sh2023.livevideostack.cn/tickets

电脑屏幕上的奇怪波纹究竟是什么? 

连续可变码率的非对称增益深度图像压缩

本文提出了一个连续码率可调的深度学习图像编码框架,即非对称增益变分自动编码器(AG-VAE)。AG-VAE利用一对增益单元在一个单一的模型中实现离散可变码率,其额外的运算量可以忽略不计。然后,通过使用指数插值的方式,在不影响性能的情况下实现连续可变适应。

用于联合视频和图像视觉变换器的稀疏视频管

介绍了一种新的视频分析方法,称为Sparse Video Tubes (SVT),可用于联合视频和语音处理任务。该方法使用深度学习模型来自动检测人类行为,并在视频中提取出相应的运动物体轨迹。使用此技术,可以更准确地识别和跟踪人类行为。而且,这种技术对于机器学习算法的计算量要求较低,能够处理更大规模的视频数据集。

https://ai.googleblog.com/2023/05/sparse-video-tubes-for-joint-video-and.html

媒体传输协议的演进与未来

LiveVideoStackCon 2022北京站邀请到快手传输算法负责人周超,结合快手在媒体传输上的优化与实践,基于快手KTP、KLP、LAS等协议和标准,为我们介绍了媒体传输协议的演进与面临的挑战;还分享了最新的媒体传输标准CMTP,探索未来更多可能。

海量视频处理的应对和算法实践

LiveVideoStackCon 2022 北京站邀请到沐曦AI解决方案总监——虞新阳,为大家梳理视频处理的需求及介绍沐曦应对视频处理场景的GPU产品等。

车载音响系统主观音效的客观量化

本文提出了一个连续码率可调的深度学习图像编码框架,即非对称增益变分自动编码器(AG-VAE)。AG-VAE利用一对增益单元在一个单一的模型中实现离散可变码率,其额外的运算量可以忽略不计。然后,通过使用指数插值的方式,在不影响性能的情况下实现连续可变适应。

神经编码技术可以提高音频数据恢复效率

本文介绍了一项使用神经编码技术来提高音频数据恢复效率的研究。与传统的音频编码器相比,DARE 编码器产生的编码语音数据更加稀疏和冗余,这使得丢失的音频数据包可以更有效地恢复。通过实验,研究人员发现,DARE编码器和基于神经网络的解码器组合能够在不损失音频质量的情况下,显著提高音频数据恢复的效率。这项研究对音频数据传输和存储方面有着重要的应用价值,可以帮助提高音频数据的可靠性和安全性。

https://www.amazon.science/blog/neural-encoding-enables-more-efficient-recovery-of-lost-audio-packets

NVIDIA 视频编解码器 SDK 加速了新的视频创建和流媒体功能

介绍了NVIDIA Video Codec SDK的最新功能,该SDK是一组用于视频编解码的API,其中包括实时视频编码、快速GPU加速转码以及基于AI的视频增强。此外,该SDK还支持使用CUDA进行硬件加速的视频渲染和处理,可以帮助开发人员提高视频编辑和流媒体应用程序的性能和效率。

https://developer.nvidia.com/blog/new-video-creation-and-streaming-features-accelerated-by-the-nvidia-video-codec-sdk/

ffplay 播放器源代码分析

ffplay 是 FFMpeg 自带的播放器,使用了 ffmpeg 解码库和用于视频渲染显示的 sdl 库,也是业界播放器最初参考的设计标准。本文对 ffplay 源码进行分析,试图用更基础而系统的方法,来尝试解开播放器的音视频同步,以及播放/暂停、快进/后退的控制原理。

音视频编解码--多媒体格式系列开篇

DeepRS:用于实时视频通信的基于深度学习的网络自适应 FEC 

---提出了一种新的 FEC 算法 DeepRS,它利用深度神经网络预测网络丢包,动态调整冗余率,显着提高 FEC 方案的效率。DeepRS应用 RS 编码算法对视频块进行编码,并提出了一种基于长短期记忆(LSTM)网络的丢包预测方法。在总冗余率固定的情况下,DeepRS 的恢复率比对比算法高 70%,并且 DeepRS 可以在任何网络动态下实现自适应 FEC 冗余。

ChatGPT浪潮下,看中国大语言模型产业发展

本篇报告将着重分析“ChatGPT的成功之路”、“中国类ChatGPT产业发展趋势”、“ChatGPT应用场景与生态建设”、“ChatGPT浪潮下的‘危’与‘机’”四个问题。

Microsoft Mesh:改变人们在现代工作场所的互动方式 

微软推出新技术 Microsoft Mesh,旨在通过混合现实、虚拟现实和增强现实等技术,改变人们之间互动和协作的方式。Microsoft Mesh 将提供一个跨平台的生态系统,允许用户在不同设备上共享虚拟空间,并进行实时协作。文章还介绍了一些具体应用场景,比如在远程办公、教育、社交娱乐、医疗等领域中使用 Microsoft Mesh 可以带来很多便利和创新。

https://techcommunity.microsoft.com/t5/microsoft-teams-blog/microsoft-mesh-transforming-how-people-come-together-in-the/ba-p/3824898

实时互动下视频 QoE 端到端轻量化网络建模

LiveVideoStackCon 2022北京站邀请到郑林儒老师为我们介绍视频体验数据库的建立、视频画质评估建模及其端上轻量优化。

流媒体不关心共享账号——一切都取决于定价 

作者提出了一个有趣的观点:流媒体服务商其实并不太在乎共享账号,因为他们更关心的是价格。文章指出,共享账号可能会导致一些潜在的收入损失,但相对于流媒体服务的总收入来说,这个影响并不大。相反,如果流媒体服务定价太高,用户就会更倾向于共享他们的账号和密码。因此,作者建议,流媒体服务商应该更关注定价策略,以便提供具有吸引力的价格,从而减少用户共享密码的动机。

https://www.streamingmedia.com/Articles/Post/Blog/Streamers-Dont-Care-About-Password-Sharing---It-All-Comes-Down-to-Pricing-158768.aspx




扫描图中二维码或点击“阅读原文 

查看更多LiveVideoStackCon 2023上海站精彩话题

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中美航线的前景---我的一己之见国务院关于同意阿克苏阿拉尔高新技术产业开发区升级为国家高新技术产业开发区的批复音视频技术开发周刊 | 288音视频通讯QoS技术及其演进对话小红书剑寒:如何跨方向技术融合,全局优化打造更智能的音视频系统?类器官前沿技术开发与应用创新论坛-慕尼黑上海分析生化展会议邀约音视频技术开发周刊 | 296【参会须知】类器官前沿技术开发与应用创新论坛-慕尼黑上海分析生化展明天开幕!音视频技术开发周刊 | 293音视频技术开发周刊 | 289音视频技术开发周刊 | 297(古詩詞英譯) 早梅 - (明)道源5037 血壮山河之武汉会战 鏖战幕府山 6《美丽的牧羊姑娘》&《卧龙吟》未来已来,大模型无处不在。音视频技术人,你准备好了吗?音视频技术开发周刊 | 292"AIGC将成为音视频的核心技术之一"|对话PPIO边缘云联合创始人王闻宇音视频技术开发周刊 | 291【首发】宜明细胞完成1.5亿元C+轮融资, 加速全球化布局和前瞻性核心技术开发阿里通义千问大模型加持,专攻音视频生产力的「听悟」来了音视频技术开发周刊 | 303复活节澳洲男子怒砸公交车,乘客司机被惊呆!抖音视频引热议(视频/组图)阿里云智能发布音视频AI通义听悟|首席资讯日报音视频技术开发周刊 | 298AV夜话#6 刘连响:聊聊音视频与出海、AI和传统行业汉堡王免费送汉堡!澳女拍抖音视频分享获取方式,网友:听我说谢谢你(图)汇聚音视频新能量 探索行业新蓝海音视频技术开发周刊 | 294北京经济技术开发区发布百亿政府引导基金基于5G网络的视频远程操控应用实践——低延迟视频技术及应用澳洲男子怒砸公交车,乘客司机被惊呆!抖音视频引热议iPhone 提前曝光的新功能,让可能用于「AI 诈骗」的技术开始帮人音视频技术开发周刊 | 301老海归丧偶后音视频技术开发周刊 | 290
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。