Redian新闻
>
AudioLDM一作解读:文本生成高质量音频,单GPU即可

AudioLDM一作解读:文本生成高质量音频,单GPU即可

公众号新闻


文本驱动的生成模型在图像和视频领域已经取得了显著成果,例如大火的 Stable Diffusion,可以生成大片级别的图像,但是在音频领域,技术上的进展还是比较局限的。
 
文本到音频的生成模型对许多和创作相关的行业都会产生积极的作用,例如游戏开发者或者电影配音人员可以借助此项技术,根据特定的要求去生成声音,而不是在庞大的音频数据库中搜寻,从而加快生产效率。文本到音频的生成模型也可以为未来自动内容创作提供文本和声音之间的桥梁。

然而,以往文本到音频的研究都存在生成质量有限、计算成本高的问题。

针对上述困难,来自英国萨里大学等机构的研究者提出了 AudioLDM,一个基于去噪扩散隐式模型(Latent Diffusion Models, LDMs)和对比学习 (Contrastive Learning) 的框架。AudioLDM 可以在仅有音频数据的情况下达到比使用音频 - 文本数据对相同或者更好的效果。
 
作者提出采用自监督的方法去训练 LDMs。具体而言,AudioLDM 使用对比学习将文本和音频两个模态对齐到一个隐空间中,在训练 LDMs 的时候使用音频自身的表征去生成音频本身,并在测试时使用文本的表征。这种做法比较好的缓解了此任务对音频 - 文本数据对的依赖。
 
总结来说,AudioLDM 具备以下几点优势:

  • 达到了目前最好的文本生成音频的效果,并且在核心模块(扩散模型)优化阶段不需要文本数据。
  • 计算资源消耗低,单块 3090 GPU 三天内可以完成在 AudioCaps 数据集上的模型训练。
  • 模型在不需要额外训练的情况下,可以对任意声音进行音色风格转换,声音空白填充和音频超分。

机器之心最新一期线上分享邀请到了该研究的作者之一、英国萨里大学刘濠赫博士,为大家解读他们近期的工作 AudioLDM。


分享主题:AudioLDM: 文本驱动的音效、音乐和语音生成

嘉宾简介:刘濠赫目前博士就读于英国萨里大学,师从 Mark D. Plumbley 教授。其开源项目在 GitHub 上收获了 1.5k star。在各大学术会议上发表多篇论文,并在多项世界机器声学大赛中获得前三的名次。在企业界与微软,字节跳动,英国广播公司等有广泛的合作。

分享摘要:此次分享将介绍

  • 文本生成音频的研究背景和应用场景
  • AudioLDM 的设计思想,模型结构和实现细节
  • 对 AudioLDM 的效果评估,以及与其他基线模型的比较
  • 对 AudioLDM 生成效果的展示,包括视频和网页
  • 对未来工作的展望

相关链接:

  • 项目主页:https://audioldm.github.io/ 
  • 论文:https://arxiv.org/abs/2301.12503
  • 开源代码和模型:https://github.com/haoheliu/AudioLDM
  • Hugging Face Space:https://huggingface.co/spaces/haoheliu/audioldm-text-to-audio-generation

直播间:关注机动组视频号,立即预约直播。

交流群:本次直播有 QA 环节,欢迎加入本次直播交流群探讨交流。

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动欢迎所有 AI 领域技术从业者加入

  • 点击阅读原文,访问机动组官网,观看更多精彩分享

  • 关注机动组服务号,获取每周直播预告

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大规模预训练、可控文本生成方向,清华大学计算机系NLP实验室招聘博士后(长期有效)Alpaca-CoT项目原作解读:多接口统一的轻量级LLM指令微调平台三次元的文本到图像AI成了:单GPU不到一分钟出货,OpenAI出品因ChatGPT爆红的文本生成大模型将GPT家族模型极限压缩,1700+亿参数稀疏性达50%性能不减,单GPU即可日本啊,日本(九)日本园林MIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型SparK项目原作解读:卷积模型的首个BERT预训练UniMatch项目原作解读:统一光流、立体匹配和深度估计三个任务Meta发布全新大语言模型,号称比ChatGPT更强,单GPU上就能跑,后续或将开源DAMO-YOLO项目原作解读:兼顾速度与精度的高效目标检测框架开源模型、单卡训练,带你了解爆火的文本指导音频生成技术AudioLDM大模型在文本生成领域有哪些最新尝试的工作?DiffusionBERT项目原作解读:掩码预训练语言模型的扩散生成探索SpikeGPT项目原作解读:使用脉冲神经网络的生成式语言模型UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型ChatGPT平替「小羊驼」Mac可跑!2行代码单GPU,UC伯克利再发70亿参数开源模型人类没有足够的高质量语料给AI学了,2026年就用尽,网友:大型人类文本生成项目启动!Galvatron项目原作解读:大模型分布式训练神器,一键实现高效自动并行Conagen和Natáur达成合作,生产可持续天然牛磺酸ELITE项目原作解读:基于扩散模型的快速定制化图像生成退休警察老Dan (1)GPT、BERT、XLM、GPT-2、BART…你都掌握了吗?一文总结文本生成必备经典模型(二)回国之旅,没人羡慕海外华人NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑一百岁时我们会干啥?一颗GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三维点云模型谷歌发布从文本生成音乐的AI作曲系统,但暂不计划发布AIGC的浪潮下,文本生成发展得怎么样了?图文并茂|AIGC的浪潮下,文本生成发展得怎么样了?Seq2Seq、SeqGAN、Transformer…你都掌握了吗?一文总结文本生成必备经典模型(一)MOAT项目原作解读:强大的可扩展视觉骨干网络美国入境档案--聂崇岐、秦惠箬、南希凌、艾国英、周美玉和郑哲敏GPT系列大模型在文本生成方向有哪些最新尝试?TPVFormer项目原作解读:面向自动驾驶场景的纯视觉三维语义占有预测
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。