Redian新闻
>
击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩

击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩

公众号新闻

机器之心专栏

机器之心编辑部

商汤大模型团队提出的文生图大模型RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,速度极快。

自从 2022 年开始,以 Stable Diffusion、ChatGPT 为代表的生成式 AI 席卷了整个 AI 社区,AI 大模型也走进了公众的视野。


但是,现有的绝大部分模型仍然做不到生成高质量且符合文本描述的图。

本文将介绍商汤大模型团队提出的文生图大模型 RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,而且生成速度极快,并且在各项测试上击败了 Stable Diffusion XL,DALL-E 2,DeepFloyd 等模型。


论文地址:https://arxiv.org/pdf/2305.18295.pdf

该研究还提供了将 RAPHAEL 作为基座的 artist v0.3.0 beta 模型的在线试玩链接,可以在 https://miaohua.sensetime.com/zh-CN/ 中免费试玩(注意不要选错模型了)。同时,研究者也设置了反馈按钮(在生成图的旁边)来帮他们不断优化,希望大家可以积极体验并进行反馈。

效果展示

   





更多效果展示:


方法介绍

本文共提出了三个组件: Space-MoE, Time-MoE, 以及 Edge-supervised learning 模块。

Space-MoE 找出了文本中每一个 token 在图片中对应的区域,用不同的 expert 来处理不同的区域,最后再融合。

Time-MoE 模块使得模型能够在不同的 timestep 上选择不同的 expert;这些 MoE 事实上组成了一系列的 diffusion path,用来画某一类名词,动词,或者形容词。这些词的 diffusion path 都可以被 XGBoost 算法分开,证明了每一个 path 负责一个词。如下图所示:


Edge-supervised learning 使用物体的轮廓纹理来监督 attention 模块的学习,帮助模型更好的学习到图片的结构信息。

该研究也做了充分的消融实验来验证这三个模块的效果,具体可见论文的正文部分。研究者使用了清洗后的 LAION-5B 以及一些内部数据集来训练 RAPHAEL,LAION-5B 的清洗方案参考了 Stable Diffusion,超参数文中都有提供。同时,为了使得网络能够生成任意长宽比的图片,受到目标检测领域的启发,研究者提出了多尺度训练:即把不同尺度的图,根据这一尺度的图的数量,输入不同的 GPU 训练。具体的网络结构见下图:


实验结果

该研究首先在 FID 上进行了测试,FID 是一个衡量图片生成质量和多样性的指标,常常被用于评测生成模型的能力,实验在这一指标上击败了如 Stable Diffusion,DALL-E 2 等模型,达到 6.61。


此外,研究者同时也基于人类评估给出了一些指标,结论发现 RAPHAEL 在图文匹配度以及生成质量上均超过了 Stable Diffusion XL,DeepFloyd,文心一格以及 DALL-E 2,如下图所示:


一些小技巧

可能很多读者没有练习过怎么写文生图的 prompt,因而本文也提供了描述词优化的功能,可以将简单的 prompt 扩展成能得到优秀效果的 prompt。当然,一些国外的网站也提供了一些优秀的 prompt 库:

  • https://lexica.art/
  • https://www.midjourney.com/app/feed/
  • https://app.prompthub.studio/

同时建议大家把步数拉到 100,图片质量会更佳。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
基模型12项性能超越GPT-4,商汤语言大模型就等你来用树莓派上运行 Stable Diffusion,260MB 的 RAM「hold」住 10 亿参数大模型入门级3D打印机,到手即用、免调试,一部手机就能打印|推广专访梅涛:多名科大校友支持创业,年底前做出超越Stable Diffusion的底层视觉模型娘親舅大 (二)最可愛的人百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报文生图模型又“卷”起来了!比 Stable Diffusion 中文理解能力更强、更懂国人的文生图模型是如何构建的?中国团队自动驾驶大模型斩获CVPR最佳论文;Stability AI推出新文生图模型;京东大模型即将发布丨AIGC大事日报微软开源的大模型太强了,数学推理超ChatGPT,论文、模型权重全部公开Stability AI 发布开源版 DreamStudio,可使用最新 Stable Diffusion XL 图像生成器刘燕免费试听|《数据/商业分析求职实战营·基础班》免费试听!助你零基础逆袭!一 大桑树下号称业界最强!Meta发布全新文生图模型,实力碾压Stable Diffusion、Midjourney上下文1.6万token的编程大模型来了!与Stable Diffusion出自同门,一次吃5个Python文件不费劲Stable Diffusion一周年:这份扩散模型编年简史值得拥有打破次元壁!Stable Diffusion将现实影像转成二次元动画,推特转赞10k+,网友:都可以重做《神奇宝贝》动漫了超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单写在第一个没有母亲的母亲节开源文生图模型再进化,Stable Diffusion XL 1.0登场,出图效果不输Midjourney十分钟读懂Diffusion:图解Diffusion扩散模型逼真复刻「完美中国情侣」!加强版Stable Diffusion免费体验,最新技术报告出炉传滴滴造车VP创业大模型;澜舟科技推出400亿参数通用大模型;商汤AIGC相关收入增长670.4%与Midjourney开战!Stable Diffusion XL 0.9重磅发布,35亿+66亿双模型,AI图像生成飞跃式进步大模型论文阅读神器来了!5秒翻译67页论文,直接截图提问,网页可试玩Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion也谈母亲节Steam拆付费墙!尝试“90分钟免费试玩”模式:对玩家、厂商有何影响?直播预告:基于AIACC加速器快速实现Stable-Diffusion AI绘画|阿里云加速AIGC技术公开课完美世界TA谈Stable Diffusion插件,ControlNet、Segment Anything阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl一遍就会!AI绘画Stable Diffusion新手入门教程Stable Diffusion 版本更新,生成图片更加真实iPhone两秒出图,目前已知的最快移动端Stable Diffusion模型来了Stable Diffusion能生成视频了!动画版上线!支持文本图像视频多种输入方式农贸市场卖早点了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。