Redian新闻
>
文字、图片一键生成逼真音效,作者亲自揭秘音频AIGC模型

文字、图片一键生成逼真音效,作者亲自揭秘音频AIGC模型

公众号新闻


AIGC 在最近几月获得了巨大的突破,用户可以输入自然语言生成图像、视频、甚至是 3D 模型。但对于音频音效合成,高自由度音频生成因文本 - 音频对数据缺乏,以及长时波形建模困难而带来挑战。

此前,机器之心发布的文章《这段音频火爆外网!文字、图片一键生成逼真音效,音频界 AIGC 来了》很好的解决了上述问题,研究者提出了一款创新的、文本到音频生成系统,即 Make-An-Audio。其可以将自然语言描述作为输入,而且是任意模态(例如文本、音频、图像、视频等)均可,同时输出符合描述的音频音效。
 
具体而言,研究团队提出 Distill-then-Reprogram 文本增强策略已解决数据缺乏问题,即使用教师模型获得音频的自然语言描述,再通过随机重组获得具有动态性的训练样本。在 Distill 环节中,使用音频转文本与音频 - 文本检索模型,找到语言缺失 (Language-Free) 音频的自然语言描述候选 (Candidate),通过计算候选文本与音频的匹配相似度,在阈值下取得最佳结果作为音频的描述。在 Reprogram 环节中,团队从额外的事件数据集中随机采样,并与当前训练样本相结合,得到全新的概念组合与描述,以扩增模型对不同事件组合的鲁棒性。
 
另一方面,自监督学习已经成功将图片迁移到音频频谱,利用了频谱自编码器以解决长音频序列问题,并基于 Latent Diffusion 生成模型完成对自监督表征的预测,避免了直接预测长时波形。
 
此外在研究中团队还探索了强大的文本条件策略,包括对比式 Contrastive Language-Audio Pretraining (CLAP) 以及语言模型 (LLM) T5, BERT 等,验证了 CLAP 文本表征的有效与计算友好性。同时还首次使用 CLAP Score 来评估生成的音频,可以用于衡量文本和生成场景之间的一致性;使用主、客观相结合的评估方式,在 benchmark 数据集测试中验证了模型的有效性,展示了模型出色的零样本学习 (Zero-Shot) 泛化性等。

为了让大家更好的了解这项研究,机器之心最新一期线上分享邀请到了论文两位作者黄融杰、任意,为大家解读文本到音频的生成系统,即 Make-An-Audio。


分享主题:音频 AIGC 模型 Make-An-Audio 与高可控文本转音频合成
 
分享摘要:近期 AIGC 如同上了热搜一般,火热程度居高不下,但在音频音效领域,AIGC 的福利似乎还差了一些:主要由于高自由度音频生成需要依靠大量文本 - 音频对数据,同时长时波形建模还有诸多困难。为了解决上述困难,浙江大学与北京大学联合火山语音,共同提出了一款创新的、文本到音频的生成系统,即 Make-An-Audio。其可以将自然语言描述作为输入,而且是任意模态(例如文本、音频、图像、视频等)均可,同时输出符合描述的音频音效,具有强可控性、泛化性。
 
嘉宾简介:黄融杰,浙江大学硕士二年级,师从赵洲教授。第一作者在 NeurIPS/ICLR/IJCAI/ACM-MM 等会议发表多篇文章,主要研究方向为多模态合成,语音翻译与自监督学习。
 
任意,火山语音(字节跳动 AI Lab Speech & Audio 智能语音与音频)团队研究员,著名语音合成框架 FastSpeech 系列作者,曾在人工智能顶会发表论文 40 余篇,谷歌学术引用超过 2000。主要研究方向为语音合成、语音翻译和机器翻译。

  • 论文链接:https://arxiv.org/abs/2301.12661
  • 项目链接:https://text-to-audio.github.io (https://text-to-audio.github.io/)


直播时间:2月15日19:00-20:00


直播间:关注机动组视频号,立即预约直播。

交流群:本次直播有 QA 环节,欢迎加入本次直播交流群探讨交流。

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动欢迎所有 AI 领域技术从业者加入

  • 点击阅读原文,访问机动组官网,观看更多精彩分享

  • 关注机动组服务号,获取每周直播预告

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
3000元游艇狂欢,还有专属女仆?警方回应!网友:图片逼真,但也有破绽花40美元时代广场播15秒片一夜爆红抖音!网友:这40美元花得值,有人指画面惹笑令他也想亲自尝试一下新加坡管理大学何盛烽副教授招收计算机视觉、图像生成方向 CSC 公派/访问博士生真瓜无预告!胡歌官宣一键生娃!吃瓜群众:压力给到彭于晏早鸟报|文心一言回应百度股价波动;《流浪地球2》数字生命卡“翻车”;Office将能一键生成PPT...你通宵建的模型,我用参数化一键生成???我的心脏和我的多肉,一键生成PPT等!微软深夜重磅发布,打工人笑完就哭了AI再次开挂,一键生成线稿图,就问你怕不怕!支持2023版! [ 第365期 ]浙大北大联合火山语音推出新模型Make-An-Audio,一键生成大片音效so easy!李彦宏坦言文心一言并不完美;美国要求字节出售TikTok股份;虾品供应商斥东方甄选甩锅;Office将能一键生成PPT...斯坦福博士生自制PPT生成神器ChatBCG免费开放!一键生成自定义模版,还能导出PDF果壳专享定制!文字、动物、颜文字都可DIY的印章,只要100多还自带印泥!不要熬夜肝PPT了!络绎科学一键生成科研PPT工具Slidebot来啦!Debian开发者亲自维护,阻止内核移除Itanium/IA64架构刘建宽利用权力办案:收拾记者亲自放贷,一个冤案涉51项违法行为为文学城男博主们画像全球首发,国产开源「文本-视频生成」模型!免费在线体验,一键实现视频生成自由百万arXiv论文元信息训练语料!ChatGenTitle帮你一键生成论文题目40岁胡歌“一键生娃”冲上热搜!妻子身份首曝光:评论区炸了...距离上市仅1周!PlayStation VR2设计者亲自拆解、一窥真容专访叶定伟教授:探索多组学多维度utLIFE-UC模型,新的生物标志物助力尿液检测潜力无限我用Enscape调夜景灯光调到奔溃,你却告诉我可以一键生成!疯了吧!价值3000的效果图能一键生成,ENSCAPE要成为渲染界的天花板?老年三福与笑的哲学---柳无忌告老心言办公软件可一键生成PPT?微软抛出“王炸”!AIGC一键生成“开放世界”360全景概念图,游戏美术看了直呼画不了?特效大神用真人视频一键生成动画,动画师要失业了?美国,作为朋友时是慷慨的,作为对手时也是冷酷的。美国入境档案--葛庭燧和何怡贞游戏里那些奇怪的音效,是怎么搞出来的?超5亿人使用的酷狗蝰蛇音效,如何引领听感升级?微软抛出王炸,GPT-4接入Office全家桶!PPT一键生成,又一批打工人要下岗了?日本啊,日本(八)苏州园林从用户需求出发,酷狗蝰蛇音效如何打造出第一音效市场?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。