音视频技术开发周刊 | 275
每周一期,纵览音视频技术领域的干货。 新闻投稿:[email protected]。
Instagram如何将视频编码时长缩短94%?
眼看用户视频的增长将超过服务器的算力上限,既没有额外的服务器来支持,也不能对用户体验造成大的冲击,Instagram的工程师找到了两种编码过程中重复计算的部分,并将他们合二为一,如此便可节省可观的算力。他们是如何做到的呢?
体育直播+博彩正在海外快速流行
借助繁荣的体育赛事,从北美到印度,从FuboTV、ESPN、迪士尼到Roku、Apple TV、Amazon Fire,体育直播博彩正在成为各大流媒体平台不可忽视的增长点。这也许为国内出海的平台的提供了一些参考。
Camera的预览帧率是如何设置的
在不同的应用场景中,可能会有调整预览帧率的时候,比如客户需要录制的视频固定在24帧,或者需要优化Camera功耗,本篇文章分别从Camera1和Camera2两套API来说明如何调整相机预览帧率。
音视频开发之旅(41)-天空盒
今天我们学习实践天空盒,天空盒的技术本身比较简单,但是却可以做出来很多比较天空、大山、大海、以及VR看房等效果。可以作为背景动态移动,也可以跟随手势或者传感器等进行移动变换。
流媒体服务新手入门教程03--音视频基础
对于简单的接入摄像头等硬件或者推送视频流、录制文件,那么直接下载m7s官网编译好的二进制文件即可。如果要做二次开发,那么就需要了一些基础的音视频基础,及m7s代码了,我们先了解一些音视频基础。
https://juejin.cn/post/6992951060872560676
RenderDemo(2):用 OpenGL 渲染视频丨音视频工程示例
在 RenderDemo 这个工程示例系列,我们将为大家展示一些渲染相关的 Demo,来向大家介绍如何在 iOS/Android 平台上手一些渲染相关的开发。这里是第二篇:用 OpenGL 渲染视频。
PCS 2021 | 视频 VMAF 分数的可微分估计
本文提出了一个 DNN 来估计一个应用广泛的感知视频度量指标 VMAF。通过引入了一个与感知度量密切匹配的可微损失函数,利用 H.265 压缩产生的损伤,提出的模型在预测VMAF 时获得了 4.41% 的RMSE。
音视频开发进阶|第七讲:分辨率与帧率·上篇
所谓 “数量” 和 “频率”,究竟是如何定义的、具体取值是多少呢 ?它们对于视频图像会有哪些具体的影响?
随着长视频制作行业和消费市场的持续发展,国外越来越多优秀内容“走进来”,同时更多的国内优秀作品“走出去”,这对配音本地化提出了极大的挑战。爱奇艺 AI算法高级经理 李海老师,为我们分享现代影视剧配音面临的挑战,以及面向影视剧的AI配音技术。
音乐创作引擎实现即时交互体验的探索
借助人工智能和即时演算技术,音乐的创作过程和体验过程得以实现融合:音乐将不再是视觉场景中的静态资源,而成为一种可以对用户即兴创作灵感做出实时响应的可交互元素。
论文推介:AdaVITS—基于VITS的小型化说话人自适应模型
该论文提出一种基于VITS模型的轻量化说话人自适应模型AdaVITS。在说话人自适应任务上,AdaVITS可以基于少量目标说话人录音样本构建TTS系统,合成稳定自然的目标说话人语音,并且模型参数量仅有8.97M ,计算量为 0.72 GFlops。
INTERSPEECH 2022|面向有声读物的跨说话人语音风格迁移
本文由清华大学与香港中文大学合作,面向电子有声读物的自动智能生成,提出了一种跨说话人的语音风格迁移方法。
语音模型可根据嘴唇动作识别不同语言
近年来,深度学习技术在许多语言和图像处理任务中取得了显著的成果。这包括视觉语音识别(VSR),它只需要通过分析说话人的嘴唇运动来识别说话的内容。
论文分享 | SUPERB-SG:评估自监督语音预训练模型语义学习和生成能力的新基准
该论文主要介绍了SUPERB-SG这一个语音处理通用性能的新基准,其侧重通过增加任务的多样性和难度来评估预训练模型的语义和生成能力。
BEV常见的开源算法系列三 | BEV下的时序融合
在本系列中,我们将介绍截至目前为止发布的优秀BEV算法。我们将该系列分为BEV空间的生成、BEV下的多模态融合算法、BEV下的时序融合算法。本篇中我们将介绍BEV下的时序融合算法。
图像去噪开源数据集资源汇总
随着计算机视觉技术的进步,现实世界中的噪声图像去噪问题也随之而来。本文汇总了5个图像去噪开源数据集资源,一起看看吧。
7个开源制图软件:最佳 GIS 工具介绍
开源 GIS(地理信息系统)软件、制造商和应用程序具有多种功能和类型,例如 3D GIS 制图、移动或 Android GIS、地图路由等。本文将介绍 7 个最佳开源地图制作软件工具。
推荐一个使用 .NET 6 开发的开源媒体系统
Jellyfin 是一个免费的媒体系统,拥有大量官方和第三方客户端,支持在大多数流行平台上使用。它可以让您更好的管理媒体,包括电影,音乐,图书,照片等,它是 Emby 和 Plex 的替代方案。
10亿参数、多项SOTA,智源开源视觉基础模型EVA
智源开源了简单又强大、具有 10 亿参数的视觉基础模型 EVA,将最强语义学习与最强几何结构学习相结合,在 ImageNet 分类、COCO 检测分割、Kinetics 视频分类等广泛的视觉感知任务中取得当前最强性能。
我们将在本文中介绍以下高级图像处理操作:Canny 边缘检测、轮廓和形状识别。
OpenGL之仿美图实现不规则物体加描边特效
在美图中有个功能可以给抠图以后的物体加上描边,就想着能不能在Android中用OpenGL实现它。
使用基于注意力的编码器-解码器实现医学图像描述
本文为你介绍使用计算机视觉和自然语言处理来为X 射线的图像生成文本描述。图像和文本句子是序列信息,因此我们将在编码器-解码器等设置中使用像 LSTM 或 GRU 这样的 RNN(循环神经网络),并添加注意力机制来提高我们的模型性能。
基于肤色检测的色彩恒常性算法
这篇文章介绍了一种新颖的基于面部肤色的自适应色彩恒常性算法。克服了传统算法中光源不均匀的问题,并且第一次提出将全局调整转变为局部调整。
基本的图像处理操作
图像处理是一种对图像执行操作以从中提取信息或增强图像的方法。图像处理是当今计算机视觉中最热门的话题之一,因为它被认为是计算机视觉、OCR 和其他相机相关领域的基础。
深入浅出JPEG图像压缩原理技术
为什么不同格式的图片文件大小不一样,但是带给我们的视觉感受几乎一样的呢,这里面就涉及到一个领域:数据压缩,具体到图像这块称之为图像压缩技术。今天,我就来给大家简单讲讲我们常用的JPEG压缩原理技术。
本文为计算机视觉入门必读系列的第九篇。介绍了神经网络各个部分的作用。
多视觉异步SLAM系统
现有的视觉SLAM方法和基准方法主要关注单目或双目相机配置。虽然重量轻,但这种配置很容易因遮挡、动态对象、照明变化和无纹理场景而导致跟踪失败,在本文中,我们实现了异步多视图SLAM(AMV-SLAM)问题。
8种常用直线检测算法全面汇总
在智慧交通等业务场景中,通常需要使用到直线检测。本文对比较经典的直线检测算法进行了总结和分析,并给出的相应的代码实战,希望对各位读者有所帮助。
纯视觉3D目标检测新SOTA!STS:基于Camera的深度估计新方法
在本项工作中,作者没有使用单一的单目深度方法,而是提出了一种新颖的环视temporal stereo(STS)技术,该技术利用跨时间帧之间的几何对应关系来促进准确的深度学习。
Wasmer 3.0 发布,可在浏览器外运行 WebAssembly
Wasmer 是支持 WASI 和 Emscripten 的通用 WebAssembly 运行时,提供基于 WebAssembly 的超轻量级容器,专注于支持在任何平台上运行 WASM 代码“从桌面端到云端、以及 IoT 设备,并且能嵌入在任何编程语言中”。
全球首个面向遥感任务设计的亿级视觉Transformer大模型
我们首次提出面向遥感任务设计的大规模视觉基础模型[1],针对具有1亿参数的一般结构的ViT (Plain ViT),设计符合遥感图像特点的新型注意力机制,并据此研究大模型在遥感图像理解任务上的性能,包括图像分类、目标检测、语义分割等。
像背单词一样搞定机器学习关键概念!机器学习通关(9)
“如何高效学习机器学习关键概念?”机器学习网红Chris Albon博士的小抄表可以帮到你。他总结了近300个机器学习概念,并彩笔手绘,制作了这份精美的小抄。
使用数据增强从头开始训练卷积神经网络(CNN)
该文致力于处理神经网络中的过度拟合。我们将讨论数据增强,这是计算机视觉独有的,在使用深度学习模型解释图像时,数据增强在任何地方都会用到。
图解机器学习神器:Scikit-Learn
本文详解 scikit-learn 工具库的用法,覆盖机器学习基础知识、SKLearn讲解、SKLearn三大核心API、SKLearn高级API等内容。
值得收藏的23个深度学习项目
本文为你介绍23种机器学习项目创意,以获取有关该增长技术的真实经验。通过项目学习是你短期内能做的最好投资,这些项目构想使你能够快速发展和增强机器学习技能。
超百万人用它生成3D头像,这项技术刚刚中选了 SIGGRAPH Asia 2022
AgileAvatar是字节跳动技术团队创造出来的3D 头像的 AI 模型,使用自监督学习的方式训练完成,也就是说,它无需耗费大量“人工”,直接实现“智能”,不需要标注数据即可训练,因此也更容易变成可用的产品。
基于深度学习方法的图像分割
语义分割是一个非常困难的问题,尤其是在深度学习之前。深度学习使得图像分割的准确率提高了很多,下面我们就总结一下近年来最具有代表性的方法和论文。
目前关于自动驾驶数据集你想知道的,应该都在这里了,这是「整数智能」自动驾驶数据集八大系列分享之系列八::仿真数据集,共包括6个数据集。
自动驾驶硬件预埋之后,车企如何实现数据闭环?
硬件预埋是自动驾驶趋势下车企主机厂采取的新模式,即通过在车内进行硬件预埋,后续汽车只需通过不断地升级软件,用户就可以获得更好的使用体验,同时降低主机厂车型上市时间的压力。
聊聊最近大火的超异构芯片设计、启动及工作原理----以TDA4芯片为例
超异构芯片是具有高水平的系统集成,以实现先进汽车的可扩展性和更低成本的支持集中式 ECU。关键核心包括具有标量和矢量内核的下一代 DSP,专用深度学习的NN计算核和传统算法加速器。
综述-图强化学习在混合自动化交通中的协同决策应用
在混合自动化交通中,现有的基于DRL的方法不能准确地表示车辆的交互影响以及对动态交通环境进行建模。为了解决这些缺点,本文提出一种用于混合自动化交通中CAV的多智体决策的图强化学习(GRL)方法。
综述-自动驾驶中深度学习方法收到的威胁(续)
与深度学习的其他应用不同,自动驾驶系统是一个更复杂的AI架构,由数十个功能模块和具有不同特征的不同环境模块组成,对AI安全攻击和缓解技术提出了不同的要求。
自动驾驶卡车爆胎后会发生什么
在自动驾驶领域,车辆是否能够自如应对各种意外状况是走向商业化的最大挑战之一。自动驾驶技术公司经常宣传他们的车辆如何处理一般交通中的常见事件和罕见情况,但很少有人告诉我们,车辆本身出现物理性问题时会发生什么。例如,爆胎。
元宇宙概念的火爆以及我们对AI、虚拟现实、数字人等技术的不断尝试与探索,催生了大量新应用、新内容和新交互的方式,逐步向更真实、更沉浸、更轻量化的方向发展。
VR视频生态迎拐点,创作者如何紧抓潮流?
2022全年的VR头显出货量预计将达到1450万台,越来越多的消费者开始认识、了解VR内容,并产生了强烈的好奇心和体验冲动。在这其中,以VR直播和视频构成的影像内容,成为整个VR内容体系中非常重要的一环。
神州十五号升空,和VR/AR有什么关系?
美国宇航局(NASA)作为研发VR技术的鼻祖之一,早前就曾在官网发布报道为人们揭秘了在太空中运用VR/AR技术的场景。包括VR/AR设备帮助宇航员适应太空微重力场景,还有宇航员利用VR/AR设备来检修仪器。那么,VR/ AR技术在航天领域都为我们带来了哪些应用呢?
前沿声音|2023年元宇宙领域四大趋势
美国《福布斯》双周刊网站在近日的报道中指出,2030年全球元宇宙的市场规模有望高达5万亿美元,2023年可能是确定其发展方向的关键一年,并列出了明年元宇宙领域的四大发展趋势。
盘点元宇宙十大应用
目前,许多元宇宙的应用已经落地,本文盘点了元宇宙的十大应用,带领读者感受身边悄然而至的变化,元宇宙的未来已来,但一切也只是刚刚开始。
AR 生态中最重要的基础设施 - AR 网关介绍
Arweave 是一条永久存储公链,为用户提供去中心、可信赖的数据存储服务,是 Web3 重要的基础设施。作为 Web3 的刚性需求,Web3 应用都离不开去中心存储的支持。
阅读推荐
Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字
现在,已是2022年底。深度学习模型在生成图像上的表现,已经如此出色。十年来,我们是如何走到今天这一步的?在下面的时间线里,我们会追溯一些里程碑式的时刻,也就是那些影响了AI图像合成的论文、架构、模型、数据集、实验登场的时候。
靠 AI 作图挣钱?Adobe Stock 正式接受 AI 生成图片售卖
近日,Adobe 宣布承认以 Stable Diffusion 和 DALL-E 为代表的人工智能生成图片的价值,创作者可以将其放到 Adobe Stock 平台销售。
李航:人工智能需要怎样的计算范式和理论?
本文首先通过字节跳动人工智能实验室的一些研究成果介绍最前沿的人工智能技术,总结这一两年来人工智能领域的研究发展动态。之后本文分享了对人工智能领域长期发展的看法。
IBC365|FIFA世界杯技术创新
2022 年世界杯中人工智能驱动的分析将提供越位检查、表现数据统计和比赛用球中的传感器数据分析。本文对卡塔尔世界杯中的部分新技术进行简单介绍。
课程推荐
轻松掌握WebAssembly视频播放器——LiveVideoStack与李超联合打造
紧抓多媒体生态趋势,将浏览器、WebAssembly和Rust等热点结合
熟知播放器工作原理,为实现商业化H.264/H.265播放器打下坚实基础
课程包含图文、代码、视频,降低学习门槛
李超精准讲解,及时详细解答
↑识别上图二维码或点击上图立即订阅。
微信扫码关注该文公众号作者