Redian新闻
>
与Midjourney开战!Stable Diffusion XL 0.9重磅发布,35亿+66亿双模型,AI图像生成飞跃式进步

与Midjourney开战!Stable Diffusion XL 0.9重磅发布,35亿+66亿双模型,AI图像生成飞跃式进步

公众号新闻



  新智元报道  

编辑:编辑部
【新智元导读】虽然此前CEO曾陷入种种争议,但依然不影响Stability AI登上时代杂志。近日,该公司又发布了Stable Diffusion 的XL 0.9版本,35亿+66亿双模型,搭载最大OpenCLIP,让AI生图质量又有了新的飞跃。

Stable Diffusion又双叒升级了!
最近,Stability AI发布了最新版的Stable Diffusion XL 0.9(SDXL 0.9)。
比起之前的模型,这波更新在图像和构图细节上,都有了质的飞跃。
尤其是在参数上,这次的SDXL0.9具有35亿参数基础模型和66亿参数模型的集成管线。相比之下,Beta测试版仅用了单个31亿参数的模型。
为了生成更逼真的图像,以及更大的深度和更高的分辨率(1024x1024),SDXL 0.9使用了两个CLIP模型,包括迄今为止最大的OpenCLIP模型(OpenCLIP ViT-G/14)。
不仅如此,SDXL 0.9在消费级显卡上就能运行。只需要Win10/11或Linux操作系统、16GB内存,以及具有8GB以上显存的英伟达RTX 20系显卡即可。
SDXL 0.9和SDXL Beta的差异究竟有多大?
咱们看图说话。

实测效果


下面就来看看新版的SDXL 0.9,在图片细节上有什么不一样吧~
Prompt:外星人在拉斯维加斯漫步

SDXL Beta版

SDXL 0.9
Prompt:优胜美地国家公园的一只狼
Negative prompt:3d渲染,光滑,塑料,模糊,颗粒感,低分辨率,动漫,过度饱和

SDXL Beta版

SDXL 0.9
Prompt:手举咖啡
Negative prompt:3d渲染,光滑,塑料,模糊,颗粒状,低分辨率,动漫

SDXL Beta版

SDXL 0.9
官方表示,SDXL系列还会提供一系列超越基本文本prompt的功能。
包括图像对图像的prompt(输入一个图像以获得该图像的变化)、内画(重建图像的缺失部分)和外画(构建一个现有图像的无缝扩展)。
SDXL 0.9在两个CLIP模型上运行,包括迄今为止训练的最大的OpenCLIP模型之一(OpenCLIP ViT-G/14),这增强了0.9的处理能力和创造具有更大深度和1024x1024更高分辨率的逼真图像的能力。
SDXL团队不久将发布一个研究博客,更详细地介绍这个模型的规格和测试。

荣登Time最具影响力公司

就在最近,Stability AI被时代杂志选为100家最有影响力的公司之一。
对于Stability AI,时代杂志是这样介绍的——
如果你能用文字描述,Stability AI可以将其转化为图片。
Stable Diffusion是该公司帮助训练的免费开源文本到图像生成器,在8月份推出后,它改变了世界对于AI潜力的理解。
然而,Stability AI很快陷入了种种争议,包括如何训练这些工具,以及从互联网上获取数据的版权诉讼之中。
尽管如此,该公司表示,在推出Stable Diffusion 2.0的一个月内,App Store TOP 10应用中的4个,背后都是这个模型。
而公司CEO Emad Mostaque也被报道经常夸大公司的表现,此前他曾声称:Stability AI「真正的开源」为「突破」铺平了道路。

SDXL Beta

实际上,SDXL的Beta版本也没发布多久,可见作图这一块的版本迭代真的是日新月异。
当时,StabilityAI就表示,Stable Diffusion XL并不是最终发布版的名字,并且也并非是v3,因为SD-XL的架构和SD-v2系列的模型架构非常相似。
下面几张SD-XL官方发布的例图,可以看出图像的质量已经非常能打了。
SD-XL相比之前版本的改进如下:
  • 使用较短的描述性prompt即可生成高质量图像

  • 可以生成更贴合prompt的图像

  • 图像中的人体结构更合理

  • 与 v2.1和 v1.5版本(程度较轻)相比,SD-XL生成的图片更符合大众审美

  • 负面提示词(negative prompt)是可选项

  • 生成的肖像图更逼真

  • 图像中的文本更清晰
清晰可读的文字
在v1系列和v2.1版本的Stable Diffusion模型中,并不具备在图片中生成可读文本的能力。
虽然SD-XL生成的文本信息并不总是准确,但确实得到了巨大的提升。

一个年轻的女性举着一个牌子,上面写着「Stable Diffusion」,头发高亮,坐在餐厅外面,棕色的眼睛,穿着裙子,侧灯
更好的人体结构
Stable Diffusion在生成人体解剖结构方面一直存在诸多问题,多几条腿、少个胳膊实在是太常见不过的问题。
比如说SD-v1.5生成瑜伽的图像,经常会出现扭曲的人体。
而SD-XL虽然生成的图像并不完美,不过在人体姿态方面已经有了显著的进步。
更有美感(more aesthetic)
比如同样以屋子为主题,SD-XL可以生成更对称、视觉效果更好的照片。
SD-XL在肖像照片上也有显著改进。

一个女人的照片
参考资料:
https://stability.ai/blog/sdxl-09-stable-diffusion




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-4.5来了!地表最强Code Interpreter与Midjourney联动,5分做出大片 | 附保姆级攻略(多图预警)Midjourney整大活!1秒生成美国各州建筑图+人物图,这很难评九剑一魂 - 第24回 汉胡同源 九剑一魂(二)Stability AI 发布开源版 DreamStudio,可使用最新 Stable Diffusion XL 图像生成器刘燕人手一个Midjourney!Stability AI开源旗下生图模型,做图圈炸了生成式3D:等待下一个“Midjourney时刻”「GPT-4.5」来了!地表最强Code Interpreter与Midjourney联动,5分做出大片|附保姆级攻略Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成开源文生图模型再进化,Stable Diffusion XL 1.0登场,出图效果不输Midjourney号称业界最强!Meta发布全新文生图模型,实力碾压Stable Diffusion、Midjourney做了抖音最新受害者专访HiDream.ai梅涛:视觉模型还未智能涌现,现在还有机会打造一家超越Midjourney的公司|年度AI对话Stable Diffusion能生成视频了!动画版上线!支持文本图像视频多种输入方式Midjourney 5.1 震撼更新!逼真到给跪,中国情侣细节惊艳,3D视频大片马上来空巢日记摘要2005只限今日免费,Midjourney 5.1震撼更新!逼真到给跪,中国情侣细节惊艳,3D视频大片马上来视频版Midjourney又进化了:一句话生成视频,谷歌注资,网友大呼好莱坞已死!Midjourney、Stable Diffusion 齐更新,最强 AI 画图工具大战|Hunt Good 周报推理效率比ControlNet高20+倍!谷歌发布MediaPipe Diffusion插件,「移动端」可用的图像生成控制模型电影预告一键生成,Midjourney+Gen-2生成视频刷屏了Midjourney 5.1来了!图像生成更丝滑,网友已经玩嗨了...Midjourney更新「摊大饼」功能,瞬间生成「清明上河图」,特写无限平移成全景照OpenAI再发3D生成模型Shap-E,传Midjourney入局3D模型生成Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈 |【经纬低调分享】Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈35 亿+66 亿参数双模型,消费级显卡上也能跑!Stability AI 发布重大升级,生成图像真假难辨移民生活(五)重磅直击:鼎康生物“十年,新启航(New Journey,Go Beyond)”庆典活动成功落幕Midjourney:伟大的公司只需要十一人3分钟一个大片!视频版Midjourney上线iPhone,网友实测太绚了|免费体验iPhone 15 拍照将迎大升级/Midjourney 官方中文版来了/王者荣耀女装定价超千元中国团队推出脑电图图像生成模型DreamDiffusion《国画牡丹》&《问风》全AI生成「芭本海默」病毒式疯转!Midjourney、Gen-2版联手拍成,震撼堪比好莱坞原片Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。