Redian新闻
>
音视频技术开发周刊 | 297

音视频技术开发周刊 | 297

科技

每周一期,纵览音视频技术领域的干货。

新闻投稿:[email protected]

Geenee AR为品牌商和零售商提供虚拟试穿应用

这意味着Geenee AR的虚拟试穿解决方案能够与品牌商现有的销售渠道无缝集成。

 

谁说苹果掉队了?WWDC上只字未提AI,却已低调入场大模型

尽管苹果没有在 WWDC 上谈论AI 大模型,但他们介绍了一些基于 AI 的新功能,如改进iPhone 的自动更正功能,当你按下空格键时,它可以完成一个单词或整个句子。该功能基于使用 Transformer 语言模型的 ML 程序,使自动更正比以往任何时候都更加准确,而 Transformer 是支持 ChatGPT 的重要技术之一。

用于开源项目的 ChatGPT 驱动的代码审查器机器人

ChatGPT可以审查代码了:作者利用开源的ChatGPT制作的代码审查机器人,可以进行代码审查,并提供有关代码质量、安全性和最佳实践方面的反馈。

https://www.cncf.io/blog/2023/06/06/a-chatgpt-powered-code-reviewer-bot-for-open-source-projects/ 

使用 SQuId 评估TTS模型

文章评估了TTS的系统表现。作者介绍了一种名为“ManyEars”的自动评估框架,该框架可以同时处理多个声学和语言特征,并使用机器学习算法来生成客观的质量评估指标。他们还提出了一种基于GAN(生成对抗网络)的数据增强方法,以帮助改善TTS模型的性能。 

https://ai.googleblog.com/2023/06/evaluating-speech-synthesis-in-many.html

视觉字幕:使用大语言模型通过动态视觉效果增强视频会议

本文介绍了一个新的视觉字幕生成模型,该模型使用大语言模型训练,自动生成对图像的描述。该模型在未来可能会被用于诸如辅助无障碍输入、图像搜索和自动图像描述等领域。

https://ai.googleblog.com/2023/06/visual-captions-using-large-language.html、
 

 

高翔博士分享:单目SLAM在移动端应用的实现难点有哪些? 

 

华为手机的"超光谱摄像头"

 

英伟达发布Neuralangelo,借助神经网络将2D视频转换为更精细的3D结构

Neuralangelo可以生成雕塑的具有复杂细节和纹理的3D结构。然后,创意专业人士可以将这些3D对象导入设计应用程序,进一步编辑它们以用于艺术、视频游戏开发、机器人和工业数字孪生等应用。

 

要能力、要稳定也要降本——百度多媒体技术回顾

多媒体技术生态进入到存量市场,客户既要又要还要成为常态。如何将能力、质量与稳定性、成本不断优化,就是各个多媒体技术平台的必修课。本文以百度智能视频云为例,纵览了其在RTC、边缘计算、视频编码等关键能力与用户体验和成本优化的经验。 


如何正确选择恰当的传声器? 

音视频问题汇总--如何兼容实时音视频加密?

音频格式--PCM介绍

基于语音识别的弱监督联合学习

具体来说,该方法使用一个中央服务器来协调各个客户端的模型更新。服务器首先从未标记的数据中提取出尽可能多的信息,并将其与客户端提供的少量标记数据结合起来训练一个初始模型。然后将该模型下发给各个客户端,并根据客户端反馈的准确率和数据分布情况来调整模型参数。最终,所有客户端的模型会被合并,形成一个全局模型。

https://www.amazon.science/blog/federated-learning-with-weak-supervision-for-speech-recognition

深度视频预编码

本文提出了一个深度视频预编码框架,其核心预编码组件包括一个级联结构的降尺度神经网络,在视频编码期间、传输之前操作。


百度视频质量评测的实践之路

LiveVideoStackCon 2022北京站邀请来自百度的王伟老师为大家介绍百度视频质量评测的发展之路 。

 

苹果封神头显Vision Pro竟暗藏「脑机接口」!苹果前员工疯狂揭秘读心操控

其实,这是苹果通过算法来监视你的眼睛行为,并实时重新设计UI,以创建更多这种预期的瞳孔反应,从而创建个人大脑的生物反馈。这就是通过眼睛实现的初级「脑机接口」。 

一文读懂苹果 Vision Pro:最好最贵的头显,重新定义下一代计算

与过去所有的 VR/AR 平台相比,Vision Pro 的出现开创了一个新的纪元。从人机交互,到硬件规格,再到操作系统、生态,以及数据隐私,苹果重新定义了头戴式设备的标准。

专访瑞声科技应用软件开发总监陆其明:当一名老兵决定重新上路

从互联网公司到智能终端解决方案公司,陆其明的这次转变可能难以被人理解。但经济大环境的影响和个人的技术困境还是让他义无反顾地走向一个未知的世界。正如黄仁勋日前所言,“撤退”对聪明人来说并不容易。然而,战略性的撤退、牺牲、决定放弃什么是成功非常关键的核心。 

2023LiveVideoStackCon上海站已进入全价期

2023年SRT InterOp Plugfest亮点

在2023年的SRT InterOp Plugfest中,Haivision和YouTube合作展示了使用SRT技术进行视频传输的高互操作性。这证明了SRT协议在实现不同设备和平台之间高效视频传输方面的能力。通过这些展示,人们看到了各种开发人员如何利用SRT协议来使视频传输过程变得更加可靠和高效,并提供了与其他视频流媒体解决方案无法匹敌的优势。

https://www.haivision.com/blog/all/highlights-2023-srt-interop-plugfest-with-youtube/

强化学习驱动的低延迟视频传输

LiveVideoStackCon2022北京站邀请了来自北京邮电大学的周安福教授,为我们分享关于使用强化学习方法进行低延迟视频传输的相关研究成果 。

面向流媒体的确定时延传输:从QUIC出发,走向未来

LiveVideoStackCon2022北京站邀请了清华大学的马川为我们介绍QUIC协议的诞生、目前的拓展成果以及未来的发展方向 。

流媒体应如何利用预测分析来提高留存率

预测分析的好处:了解用户的偏好、行为和需求,提供更个性化的内容和服务;通过对数据进行深入分析和建模(包括使用机器学习算法、数据挖掘工具和AI等技术)提高留存率,增加收入。

https://www.streamingmedia.com/Articles/Post/Blog/How-Streaming-Platforms-Can-Harness-Predictive-Analytics-for-Better-Retention-158980.aspx




 

扫描图中二维码或点击“阅读原文 

查看更多LiveVideoStackCon 2023上海站精彩话题

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
音视频技术开发周刊 | 295音视频技术开发周刊 | 303音视频通讯QoS技术及其演进对话小红书剑寒:如何跨方向技术融合,全局优化打造更智能的音视频系统?《伤心无话》&《一剪梅*舟过吴江》iPhone 提前曝光的新功能,让可能用于「AI 诈骗」的技术开始帮人北京经济技术开发区发布百亿政府引导基金音视频技术开发周刊 | 301毁三观!澳情侣在浴室“肉搏”呻吟声太大!旅店房客纷纷围观!抖音视频网上疯传!音视频技术开发周刊 | 304音视频技术开发周刊 | 294"AIGC将成为音视频的核心技术之一"|对话PPIO边缘云联合创始人王闻宇音视频技术开发周刊 | 296我的X档案 - 不可思议之事 2(灵魂出窍)(请勿上城头)音视频技术开发周刊 | 290Mackage 羽绒服价格真好啊,好几款都不到半价了,黑色Michigan 才$297音视频技术开发周刊 | 305逐利的商人和国家利益【首发】宜明细胞完成1.5亿元C+轮融资, 加速全球化布局和前瞻性核心技术开发【参会须知】类器官前沿技术开发与应用创新论坛-慕尼黑上海分析生化展明天开幕!AV夜话#6 刘连响:聊聊音视频与出海、AI和传统行业类器官前沿技术开发与应用创新论坛-慕尼黑上海分析生化展会议邀约音视频技术开发周刊 | 298阿里通义千问大模型加持,专攻音视频生产力的「听悟」来了汉堡王免费送汉堡!澳女拍抖音视频分享获取方式,网友:听我说谢谢你(图)音视频技术开发周刊 | 292音视频技术开发周刊 | 291回国-出租司机吐槽,老百姓喜欢的饭菜(多图)5047 血壮山河之武汉会战 鏖战幕府山 16音视频技术开发周刊 | 293音视频技术开发周刊 | 289阿里云智能发布音视频AI通义听悟|首席资讯日报未来已来,大模型无处不在。音视频技术人,你准备好了吗?汇聚音视频新能量 探索行业新蓝海国务院关于同意阿克苏阿拉尔高新技术产业开发区升级为国家高新技术产业开发区的批复基于5G网络的视频远程操控应用实践——低延迟视频技术及应用
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。