Redian新闻
>
比 Midjourney 还聪明,这个爆火 AI 神器只要听歌就能画图!|附体验方式

比 Midjourney 还聪明,这个爆火 AI 神器只要听歌就能画图!|附体验方式

科技
生成式 AI 浪潮到来,让我们见识到了每一朵 AI 浪花的无限可能。
在生成式 AI 的产品序列中,音频、文字、图片、视频在技术盲盒中洗牌,经过反复的转换和重组,排列组合出「文生图」、「文生音」、「音生文」等令人眼花缭乱的应用。
而唯独「音生图」的应用落地却迟迟在这紧锣密鼓的节奏中慢了半拍。
直到最近,一个名叫「Music To Image」应用程序在 Hugging Face 社区横空出世后,直接热度飙升,冲上了本周热搜榜,让人们看到了「音生图」的潜在可能性。
简而言之,只要输入一段音乐,它就能根据音乐旋律和歌词,生成一张对应意境的图片。
长安三万里. 图片来自:官方
最近动画《长安三万里》很火,你想象一下,你只要朗诵李白的诗,AI 能将电影里那个盛唐画卷自动给你生成出来,这就是「音生图」潜在的可能性。
由 Adele《Rolling In The Deep》的 30 秒副歌生成
左侧「音频不含歌词」 右侧「音频含歌词」
由 Taylor Swift《Love Story》的 30 秒副歌生成  
左侧「音频不含歌词」 右侧「音频含歌词」
生成的过程非常简便,只需要几个小步骤。
将提前挑选好的30秒音频放进应用程序,给 AI 提示音频中是否含有歌词,再确认生成,只需耐心等待几分钟,就能得到一张与音频基调相契合的图片。
原理也比较好理解。这款应用程序是将音频发送到 LP-Music-Caps 以生成音频字幕,然后使用 Llama2 将其转换为说明性图像描述,最后运行 Stable Diffusion XL 以从音频生成图像。
在生成的音频字幕中,LP-Music-Caps 会将音频「切割」成以 10 秒为基准单位的音频段,并在各个音频段详细描述其韵律、节奏、乐器、单双声道以及AI感受等信息。
没错,相信你看到这里,能联想到这个「音生图」模型的一大乐趣就是输入各类音乐进行测试。
比如,当我们将Michael Jackson《We Are The World》的30秒副歌音频输进去后,勾选「音频不含歌词」,几分钟后,我们就得到了下面这张图。

一名时髦的年轻女生在街道上纵情歌唱舞蹈,全然沉浸在自己的音乐天地,呈现出振奋高昂的情绪姿态 ,与音频中抑扬顿挫、热情的感情基调遥相呼应。
而当勾选「音频含歌词」后,「Music To Image」所生成的图片又截然不同,生成了下面这张更吻合歌词的图片。
不同年龄,不同性别、不同种族的人都汇聚于这小小的一张照片之中。
一如那30秒歌词中的「We are the world,we are the children 」,众人相聚于此,为充满希望的未来欢声歌唱。
但遗憾的是,应用程序生成的图片质量却参差不齐,「车祸」图片也是常有的事,比如上面图片就存在着脸部缺失的失败情况。
究其原因,可以回顾上文所提到的技术原理。
在转换为说明性图像描述的过程中,如果Prompt的提示词不精准,加之Stable Diffusion XL 技术的尚未成熟,多重因素叠加之下,成品质量也就难以保障。
更重要的是,不能轻易忽视「音频是否含歌词」这一选项。
比如,在测试中,当我们将《see you again》的带有歌词的 30 秒输入,勾选「音频不含歌词」或者「音频含歌词」后所生成的图片截然不同。
年轻男子在优雅地弹着钢琴与右侧表达的家长里短,显然是风马牛不相及。
此外,我们还尝试了各种不同风格的音乐。
比如将前30秒带有歌词的《Baby Shark》(Youtube 上播放量最多的儿歌 )放进去,选择「音频不含歌词」,最终生成了一张女生在阳光的沐浴下的海边冥想图。


而勾选「音频含歌词」,生成图片则较之更贴合歌词,生成了海洋和鲨鱼等富有儿童意趣的场景。

那么如果将两种代表中西方乐器的纯音乐放进去,又会形成怎样有趣的对比

结果可能会让你稍稍失望。用琵琶弹奏的《十面埋伏》,本该激昂震撼的30秒前奏却生成了一幅岁月静好的场景:一个女孩悠闲地坐在草地上演奏着乐器。
这个画面当然不贴合原音频的旋律,理由也很简单,就是目前该应用程序「音生图」在识别中文乐器的能力相对薄弱。
而用钢琴弹奏的《卡农》的高潮音频在「音生图」的转换下,将一个正在刻苦练习钢琴的女孩生动地描绘出来。
只不过尽管图片的主旨对了,但不成熟的技术还是将女孩的右手「忽略了」。
可以看出模型雏形尚且有些「小缺陷」,但不管怎么说,这个「音生图」将音频的频谱、节奏等特征映射为图片还是让生成式 AI 的步伐向前迈了一步。
以下是体验链接⬇️
🔗 https://huggingface.co/spaces/fffiloni/Music-To-Image
「音生图」背后的神秘独角兽
而背后给这个突破性的「音生图」模型提供平台支持的正是一家神秘独角兽公司 Hugging Face。
可能很多人对 Hugging Face 十分陌生,但如果将代表他们公司的 Emoji 放在你眼前,你可能会发现原来你们之间早已有了交集。
在所有科技巨头都在内卷生成式 AI 的赛道时,富有远见的 Hugging Face 选择另辟蹊径,开辟了 AI 的另一赛道 。
Hugging Face 致力于成为机器学习领域的「GitHub」,通过创建一个开放的机器学习模型仓库,允许全球的开发者可以免费使用,将最前沿的技术通过开放平台进行普及。
就在最近,英伟达宣布与 Hugging Face 达成战略合作关系。
只需要在 Hugging Face 平台中简单勾选几下,开发者即可轻松地将生成式 AI 项目从笔记本电脑到工作站,再转移到数据中心或云端,最终借助英伟达 DGX 云 AI 超级计算资源来训练 AI 模型。
由此也可以看出 Hugging Face 这个模型仓库的火爆程度。也难怪 Hugging Face 在短短几年内就实现了爆发式的增长,频频获得投资人的青睐。
资本市场高度认可的背后其实也离不开 Hugging Face 模式过硬的商业逻辑。
首先,Hugging Face 的开源模型仓库降低了使用机器学习的门槛,开发者只需要引用仓库中的模型,就可以将 AI 能力直接集成到自己的产品中,完全省去了训练环节。
其次,Hugging Face 利用了协作开源的力量,目前该社区上已经汇集了 12 万个模型,3 万个数据集和 5 万个被称为Spaces 的演示应用程序,且数量和质量还在不断提升。
比如上文所说的「音生图」应用程序便是发布在 Hugging Face 的社区。
最后,免费吸引用户,再提供增值服务盈利,当用户产生服务依赖后,Hugging Face 就可以将付费用户转化率最大化。
机器学习是未来最重要的技术之一,整个市场规模将达到数万亿美元,Hugging Face 正处于这波浪潮的风口之中。
现在 Hugging Face 正在进行 2 亿美元规模的 D 轮融资,估值进一步提升至 40 亿美元。
而即使以 GitHub 的市值作为参考,前景不可估量的 Hugging Face 未来也有望达到 507 亿美元的规模。
正如「音生图」技术为艺术创作开拓新可能,Hugging Face 也在引领机器学习技术步入开放共享的新纪元。
他们正顺应着技术浪潮,在创新实践中探索不同方向,其模式和愿景也让人对其未来充满期待。


点击「在看

是对我们最大的鼓励


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
OpenAI 发布 AI 绘画神器!ChatGPT 加持,Midjourney 被一夜颠覆? | Hunt Good 周报爆火视频竟不是真人,逼真程度不输Midjourney,创始人数字人亲自上Sam Altman:大家如此喜爱Code Interpreter!这是结合Midjourney的神奇用例电影预告一键生成,Midjourney+Gen-2生成视频刷屏了Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙AI 作画神器 Midjourney 又更新了沁园春 曙光Midjourney、Stable Diffusion 齐更新,最强 AI 画图工具大战|Hunt Good 周报你每天用来打卡的钉钉,居然藏着「ChatGPT」「Midjourney」和「Notion」像相机一样变焦、填充画面细节,还能自定义风格,AI作画神器Midjourney又更新了全AI生成「芭本海默」病毒式疯转!Midjourney、Gen-2版联手拍成,震撼堪比好莱坞原片海外买量游戏大佬分享AIGC利弊:Midjourney做游戏美术的心得国产Midjourney震撼登场!阿里通义万相画出「海底星空」,自研Composer架构立功视频版Midjourney又进化了:一句话生成视频,谷歌注资,网友大呼好莱坞已死!与Midjourney开战!Stable Diffusion XL 0.9重磅发布,35亿+66亿双模型,AI图像生成飞跃式进步(多图预警)Midjourney整大活!1秒生成美国各州建筑图+人物图,这很难评导演消失了!Midjourney+妙鸭相机+Gen2新玩法:10块钱创造马斯克宇宙,一键图生视频Midjourney5.2版本开始测试,用文字“画”出图片变得更加简单Midjourney+Gen2,7步完成「芭本海默」,引Karpathy惊呼|附实测经验OpenAI祭出绘画神器,Midjourney一夜下台!DALL·E 3联手ChatGPT,无需prompt一笔成神专访HiDream.ai梅涛:视觉模型还未智能涌现,现在还有机会打造一家超越Midjourney的公司|年度AI对话千秋岁 爱琴海词四首开源文生图模型再进化,Stable Diffusion XL 1.0登场,出图效果不输MidjourneyMidjourney CEO亮相WAIC大会:AI将是下代引擎,公司名源于庄子Midjourney最新“扩图”玩法:1小时直接出高清大片!GPT-4.5来了!地表最强Code Interpreter与Midjourney联动,5分做出大片 | 附保姆级攻略Midjourney更新「摊大饼」功能,瞬间生成「清明上河图」,特写无限平移成全景照对话Midjourney创始人:图片只是第一步,AI将彻底改变学习、创意和组织 | GGViewGPT-4大杀器谷歌Gemini来袭!26位研发大佬名单曝出,祭出类Midjourney生图能力号称业界最强!Meta发布全新文生图模型,实力碾压Stable Diffusion、Midjourney把感恩送出去,宇宙会给你更多的回馈Midjourney一周年!从V1到V5,画出的美女有何不同?沙漠中的動物舒適圈再登哈林峰 - Ha Ling Peak「GPT-4.5」来了!地表最强Code Interpreter与Midjourney联动,5分做出大片|附保姆级攻略
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。