Redian新闻
>
谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短

谷歌推出文本到图像模型Muse:生成图片质量更高、推理时间更短

公众号新闻
作者 | 冬梅

自 2021 年初以来,随着大量深度学习支持的文本到图像模型(例如 DALL-E-2、Stable Diffusion 和 Midjourney 等)的诞生,人工智能研究的进展发生了革命性的变化。

近日,谷歌Muse AI 系统正式亮相。据谷歌 Muse AI 团队称,Muse 是一种文本到图像的 Transformer 模型,该模型可以实现先进的图像生成性能。

我们提出 Muse,一种文本到图像的 Transformer 模型,可实现先进的图像生成性能,同时比扩散或自回归模型更有效。

——谷歌 Muse AI 团队

据开发团队介绍,与  Imagen  和 DALL-E 2 等像素空间扩散模型相比,Muse 由于使用离散标记并且需要更少的采样迭代,因此效率显着提高;与 Parti  和其他自回归模型不同,Muse  利用了并行解码。为了生成高质量的图像并识别物体、它们的空间关系、姿态、基数等视觉概念,使用预训练的 LLM 可以实现细粒度的语言理解。Muse 还可以直接启用许多图像编辑应用程序,而无需微调或反转模型:修复、修复和无蒙版编辑。

Muse 的 900M 参数模型在 CC3M 上实现了新的 SOTA,FID 得分为 6.06。Muse 3B 参数模型在零样本 COCO 评估中实现了 7.88 的 FID,以及 0.32 的 CLIP 分数。Muse 还可以直接启用许多图像编辑应用程序,而无需微调或反转模型:修复、修复和无蒙版编辑。

Muse 模型能够根据文本提示快速生成高质量图像:在 TPUv4 上,512x512 分辨率为 1.3 秒,256x256 分辨率为 0.5 秒。

根据 MUSE 的基准测试可以看出,Muse 的推理时间明显低于竞争模型。

参考链接:

https://muse-model.github.io/

https://dataconomy.com/2023/01/google-muse-ai-explained-how-does-it-work/


你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
「Tiamat」完成近千万美元A轮融资,专注将AI生成图像的可控性做到极致|早起看早期2023澳洲移民4大变化!签证审理时间更新,部分最快3天!配偶、子女签限制减少,家庭团聚更容易!PR也可能大改…海归坏蛋 大义灭亲Adobe收费图库Adobe Stock正式接受AI生成图片,能靠AI赚钱了?包含脏话的开源代码质量更高,“粗口大师”Linus:YES!最新爆火的AI头像APP,霸榜多国APP商店!但仍难逃版权争议,网友:生成图像里又看到画家签名了7 Papers & Radios | 推理速度比Stable Diffusion快2倍;视觉Transformer统一图像文本美国富人区惊现华裔腐尸!法医绘制合成图片寻求帮助!我不是健忘,我就是脸盲!不做文盲画家!谷歌魔改「文本编码器」:一个小操作让图像生成模型学会「拼写」NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录谷歌推出深度学习调优手册,不到一天狂揽1200星,Hinton转发|GitHub三次元的文本到图像AI成了:单GPU不到一分钟出货,OpenAI出品特斯拉潮州事故鉴定结果给到警方,爱奇艺新专利在弹幕发广告,小米回应或侵权华为专利,AI人像模型重新上线,这就是今天的其它大新闻!NeurIPS 2022 | 文本图片编辑新范式:单个模型实现多文本引导图像编辑图片迟迟加载不了、一片马赛克?谷歌开源模型优先显示图像受关注部分西雅图周末不无聊|Mussel festival来啦!这个周末Mussel吃到爽!耶鲁虎妈培养的美国政坛新星J. D. Vance妈妈病危 (一)NeurIPS 2022 | 这个图像生成模型启发于电动力学!PFGM:泊松流生成模型浙大北大联合火山语音推出新模型Make-An-Audio,一键生成大片音效so easy!开挖扩散模型小动作,生成图像几乎原版复制训练数据,隐私要暴露了【立冬】大师的日记 · 立冬随想别的简报|​人类艺术家首次大规模抗议 AI 生成图片包含脏话的开源代码质量更高,“粗口大师” Linus:YES!NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑四大数据分析师证书,哪个含金量更高?NIPS 2022 | 文本图片编辑新范式:单个模型实现多文本引导图像编辑7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍Jay Alammar再发新作:超高质量图解Stable Diffusion,看完彻底搞懂「图像生成」原理大喜讯,英国境内外各签证审理时间大幅加速!还可加急!最新各签证审理时长汇总来了Seq2Seq、SeqGAN、Transformer…你都掌握了吗?一文总结文本生成必备经典模型(一)推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。