Redian新闻
>
谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短

谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短

公众号新闻
作者 | 冬梅

自 2021 年初以来,随着大量深度学习支持的文本到图像模型(例如 DALL-E-2、Stable Diffusion 和 Midjourney 等)的诞生,人工智能研究的进展发生了革命性的变化。

近日,谷歌Muse AI 系统正式亮相。据谷歌 Muse AI 团队称,Muse 是一种文本到图像的 Transformer 模型,该模型可以实现先进的图像生成性能。

我们提出 Muse,一种文本到图像的 Transformer 模型,可实现先进的图像生成性能,同时比扩散或自回归模型更有效。

——谷歌 Muse AI 团队

据开发团队介绍,与  Imagen  和 DALL-E 2 等像素空间扩散模型相比,Muse 由于使用离散标记并且需要更少的采样迭代,因此效率显着提高;与 Parti  和其他自回归模型不同,Muse  利用了并行解码。为了生成高质量的图像并识别物体、它们的空间关系、姿态、基数等视觉概念,使用预训练的 LLM 可以实现细粒度的语言理解。Muse 还可以直接启用许多图像编辑应用程序,而无需微调或反转模型:修复、修复和无蒙版编辑。

Muse 的 900M 参数模型在 CC3M 上实现了新的 SOTA,FID 得分为 6.06。Muse 3B 参数模型在零样本 COCO 评估中实现了 7.88 的 FID,以及 0.32 的 CLIP 分数。Muse 还可以直接启用许多图像编辑应用程序,而无需微调或反转模型:修复、修复和无蒙版编辑。

Muse 模型能够根据文本提示快速生成高质量图像:在 TPUv4 上,512x512 分辨率为 1.3 秒,256x256 分辨率为 0.5 秒。

根据 MUSE 的基准测试可以看出,Muse 的推理时间明显低于竞争模型。

参考链接:

https://muse-model.github.io/

https://dataconomy.com/2023/01/google-muse-ai-explained-how-does-it-work/


你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑NIPS 2022 | 文本图片编辑新范式:单个模型实现多文本引导图像编辑Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍别的简报|​人类艺术家首次大规模抗议 AI 生成图片美国富人区惊现华裔腐尸!法医绘制合成图片寻求帮助!开挖扩散模型小动作,生成图像几乎原版复制训练数据,隐私要暴露了特斯拉潮州事故鉴定结果给到警方,爱奇艺新专利在弹幕发广告,小米回应或侵权华为专利,AI人像模型重新上线,这就是今天的其它大新闻!最新爆火的AI头像APP,霸榜多国APP商店!但仍难逃版权争议,网友:生成图像里又看到画家签名了三次元的文本到图像AI成了:单GPU不到一分钟出货,OpenAI出品推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA「Tiamat」完成近千万美元A轮融资,专注将AI生成图像的可控性做到极致|早起看早期7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉图片迟迟加载不了、一片马赛克?谷歌开源模型优先显示图像受关注部分包含脏话的开源代码质量更高,“粗口大师” Linus:YES!2023澳洲移民4大变化!签证审理时间更新,部分最快3天!配偶、子女签限制减少,家庭团聚更容易!PR也可能大改…西雅图周末不无聊|Mussel festival来啦!这个周末Mussel吃到爽!大喜讯,英国境内外各签证审理时间大幅加速!还可加急!最新各签证审理时长汇总来了Adobe收费图库Adobe Stock正式接受AI生成图片,能靠AI赚钱了?Jay Alammar再发新作:超高质量图解Stable Diffusion,看完彻底搞懂「图像生成」原理海归坏蛋 大义灭亲【立冬】大师的日记 · 立冬随想NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录耶鲁虎妈培养的美国政坛新星J. D. Vance妈妈病危 (一)我不是健忘,我就是脸盲!Seq2Seq、SeqGAN、Transformer…你都掌握了吗?一文总结文本生成必备经典模型(一)谷歌推出深度学习调优手册,不到一天狂揽1200星,Hinton转发|GitHubNeurIPS 2022 | 文本图片编辑新范式:单个模型实现多文本引导图像编辑浙大北大联合火山语音推出新模型Make-An-Audio,一键生成大片音效so easy!不做文盲画家!谷歌魔改「文本编码器」:一个小操作让图像生成模型学会「拼写」NeurIPS 2022 | 这个图像生成模型启发于电动力学!PFGM:泊松流生成模型7 Papers & Radios | 推理速度比Stable Diffusion快2倍;视觉Transformer统一图像文本四大数据分析师证书,哪个含金量更高?包含脏话的开源代码质量更高,“粗口大师”Linus:YES!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。