AudioLDM一作解读:文本生成高质量音频,单GPU即可
达到了目前最好的文本生成音频的效果,并且在核心模块(扩散模型)优化阶段不需要文本数据。 计算资源消耗低,单块 3090 GPU 三天内可以完成在 AudioCaps 数据集上的模型训练。 模型在不需要额外训练的情况下,可以对任意声音进行音色风格转换,声音空白填充和音频超分。
文本生成音频的研究背景和应用场景 AudioLDM 的设计思想,模型结构和实现细节 对 AudioLDM 的效果评估,以及与其他基线模型的比较 对 AudioLDM 生成效果的展示,包括视频和网页 对未来工作的展望
项目主页:https://audioldm.github.io/ 论文:https://arxiv.org/abs/2301.12503 开源代码和模型:https://github.com/haoheliu/AudioLDM Hugging Face Space:https://huggingface.co/spaces/haoheliu/audioldm-text-to-audio-generation
交流群:本次直播有 QA 环节,欢迎加入本次直播交流群探讨交流。
机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。
点击阅读原文,访问机动组官网,观看更多精彩分享;
关注机动组服务号,获取每周直播预告。
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章