音视频技术开发周刊 | 295
每周一期,纵览音视频技术领域的干货。
新闻投稿:[email protected]。
微软炸通Windows与ChatGPT全家桶!人手一个Copilot,AI宇宙降临
InstructPix2Pix: 用于图像编辑的动态扩散模型
本文提出了一种协作扩散模型,无需重新训练已有的单模态扩散模型便可实现多模态的人脸合成与编辑。这个方法在图像质量和条件一致性方面表现出优越性。
本文提出了一个基于diffusion model的框架,即FreestyleNet,其可以从给定的布局(layout)生成包含丰富语义的图像。
天琴实验室MUSELight大模型推理加速引擎已在HuggingFace公开发布三个lyra系列模型的加速版本,具体可关注HuggingFace主页:TMElyralab。
生成式 AI 与版权法
当下的主要问题集中在使用版权作品作为训练数据是否侵犯版权,以及人工智能程序的输出是否侵犯使用图像的衍生作品。
百闻不如一试,目前PaLM 2已经在谷歌的Bard平台上线开放公测,因此作者也尝试使用Bard去体会了一把PaLM 2生成Verilog代码的能力。
使用AI技术,帮助听力障碍者更好地生活
英特尔宣布了帮助听力损失者的新技术,其中包括一种可以实时转录语音的AI系统。系统内置于名为 SoundWatch 的应用程序中,该应用程序使用机器学习算法来检测和识别声音,它还可以为火警或门铃等重要噪音提供警报。此外,英特尔还开发了一款新的无线耳塞原型,可以帮助用户在嘈杂的环境中更好地听到对话。这些新技术有可能大大改善听力损失者的生活质量。
https://www.intel.com/content/www/us/en/newsroom/news/intel-brings-more-tech-people-with-hearing-loss.html#gs.ykq823
LIveVideoStackCon2023上海站九折期优惠进行中
https://sh2023.livevideostack.cn/tickets
用于联合视频和图像视觉变换器的稀疏视频管
介绍了一种新的视频分析方法,称为Sparse Video Tubes (SVT),可用于联合视频和语音处理任务。该方法使用深度学习模型来自动检测人类行为,并在视频中提取出相应的运动物体轨迹。使用此技术,可以更准确地识别和跟踪人类行为。而且,这种技术对于机器学习算法的计算量要求较低,能够处理更大规模的视频数据集。
https://ai.googleblog.com/2023/05/sparse-video-tubes-for-joint-video-and.html
LiveVideoStackCon 2022 北京站邀请到沐曦AI解决方案总监——虞新阳,为大家梳理视频处理的需求及介绍沐曦应对视频处理场景的GPU产品等。
神经编码技术可以提高音频数据恢复效率
本文介绍了一项使用神经编码技术来提高音频数据恢复效率的研究。与传统的音频编码器相比,DARE 编码器产生的编码语音数据更加稀疏和冗余,这使得丢失的音频数据包可以更有效地恢复。通过实验,研究人员发现,DARE编码器和基于神经网络的解码器组合能够在不损失音频质量的情况下,显著提高音频数据恢复的效率。这项研究对音频数据传输和存储方面有着重要的应用价值,可以帮助提高音频数据的可靠性和安全性。
https://www.amazon.science/blog/neural-encoding-enables-more-efficient-recovery-of-lost-audio-packets
NVIDIA 视频编解码器 SDK 加速了新的视频创建和流媒体功能
介绍了NVIDIA Video Codec SDK的最新功能,该SDK是一组用于视频编解码的API,其中包括实时视频编码、快速GPU加速转码以及基于AI的视频增强。此外,该SDK还支持使用CUDA进行硬件加速的视频渲染和处理,可以帮助开发人员提高视频编辑和流媒体应用程序的性能和效率。
https://developer.nvidia.com/blog/new-video-creation-and-streaming-features-accelerated-by-the-nvidia-video-codec-sdk/
DeepRS:用于实时视频通信的基于深度学习的网络自适应 FEC
本篇报告将着重分析“ChatGPT的成功之路”、“中国类ChatGPT产业发展趋势”、“ChatGPT应用场景与生态建设”、“ChatGPT浪潮下的‘危’与‘机’”四个问题。
Microsoft Mesh:改变人们在现代工作场所的互动方式
微软推出新技术 Microsoft Mesh,旨在通过混合现实、虚拟现实和增强现实等技术,改变人们之间互动和协作的方式。Microsoft Mesh 将提供一个跨平台的生态系统,允许用户在不同设备上共享虚拟空间,并进行实时协作。文章还介绍了一些具体应用场景,比如在远程办公、教育、社交娱乐、医疗等领域中使用 Microsoft Mesh 可以带来很多便利和创新。
https://techcommunity.microsoft.com/t5/microsoft-teams-blog/microsoft-mesh-transforming-how-people-come-together-in-the/ba-p/3824898
LiveVideoStackCon 2022北京站邀请到郑林儒老师为我们介绍视频体验数据库的建立、视频画质评估建模及其端上轻量优化。
流媒体不关心共享账号——一切都取决于定价
作者提出了一个有趣的观点:流媒体服务商其实并不太在乎共享账号,因为他们更关心的是价格。文章指出,共享账号可能会导致一些潜在的收入损失,但相对于流媒体服务的总收入来说,这个影响并不大。相反,如果流媒体服务定价太高,用户就会更倾向于共享他们的账号和密码。因此,作者建议,流媒体服务商应该更关注定价策略,以便提供具有吸引力的价格,从而减少用户共享密码的动机。
https://www.streamingmedia.com/Articles/Post/Blog/Streamers-Dont-Care-About-Password-Sharing---It-All-Comes-Down-to-Pricing-158768.aspx
▲扫描图中二维码或点击“阅读原文” ▲
查看更多LiveVideoStackCon 2023上海站精彩话题
微信扫码关注该文公众号作者