Redian新闻
>
Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成

公众号新闻
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

开源AI绘画扛把子,Stable Diffusion背后公司StabilityAI再放大招!

全新开源模型DeepFloyd IF,一下获星2千+并登上GitHub热门榜。

DeepFloyd IF不光图像质量是照片级的,还解决了文生图的两大难题:

准确绘制文字。(霓虹灯招牌上写着xxx)

以及准确理解空间关系。(一只猫照镜子看见狮子的倒影)

网友表示,这可是个大事,之前想让Midjourney v5在霓虹灯招牌上写个字AI都是瞎划拉两笔,对于镜子理解的也不对。

使用DeepFloyd IF,可以把指定文字巧妙放置在画面中任何地方。

霓虹灯招牌、街头涂鸦、服饰、手绘插画,文字都会以合适的字体、风格、排版出现在合理的地方。

这意味着,AI直出商品渲染图、海报等实用工作流程又打通一环。

还在视频特效上开辟了新方向。

目前DeepFloyd IF以非商用许可开源,不过团队解释这是暂时的,获得足够的用户反馈后将转向更宽松的协议。

有需求的小伙伴可以抓紧反馈起来了。

像素级图像生成

DeepFloyd IF仍然基于扩散模型,但与之前的Stable Diffusion相比有两大不同。

负责理解文字的部分从OpenAI的CLIP换成了谷歌T5-XXL,结合超分辨率模块中额外的注意力层,获得更准确的文本理解。

负责生成图像的部分从潜扩散模型换成了像素级扩散模型

也就是扩散过程不再作用于表示图像编码的潜空间,而是直接作用于像素。

官方还提供了一组DeepFloyd IF与其他AI绘画模型的直观对比。

可以看出,使用T5做文本理解的谷歌Parti英伟达eDiff-1也都可以准确绘制文字,AI不会写字这事就是CLIP的锅。

不过英伟达eDiff-1不开源,谷歌的几个模型更是连个Demo都不给,DeepFloyd IF就成了更实际的选择。

具体生成图像上DeepFloyd IF与之前模型一致,语言模型理解文本后先生成64x64分辨率的小图,再经过不同层次的扩散模型和超分辨率模型放大。

在这种架构上,通过把指定图像缩小回64x64再使用新的提示词重新执行扩散,也实现以图生图并调整风格、内容和细节。

并且不需要对模型做微调就可直接实现。

另外,DeepFloyd IF的优势还在于,IF-4.3B基础模型是目前扩散模型中U-Net部分有效参数是最多的

在实验中,IF-4.3B取得了最好的FID分数,并达到SOTA(FID越低代表图像质量越高、多样性越好)。

谁是DeepFloyd

DeepFloyd AI Research是StabilityAI旗下的独立研发团队,深受摇滚乐队平克弗洛伊德影响,自称为一只“研发乐队”。

主要成员只有4人,从姓氏来看均为东欧背景。

这次除了开源代码外,团队在HuggingFace上还提供了DeepFloyd IF模型的在线试玩。

我们也试了试,很可惜的是目前对中文还不太支持。

原因可能是其训练数据集LAION-A里面中文内容不多,不过既然开源了,相信在中文数据集上训练好的变体也不会太晚出现。

One More Thing

DeepFloyd IF并不是Stability AI昨晚在开源上的唯一动作

语言模型方面,他们也推出了首个开源并引入RLHF技术的聊天机器人StableVicuna,基于小羊驼Vicuna-13B模型实现。

目前代码和模型权重已开放下载。

完整的桌面和移动界面也即将发布。

Deepfloyd IF在线试玩:
https://huggingface.co/spaces/DeepFloyd/IF

代码:
https://github.com/deep-floyd/IF

StableVicuna在线试玩:
https://huggingface.co/spaces/CarperAI/StableVicuna

权重下载:
https://huggingface.co/CarperAI/stable-vicuna-13b-delta

参考链接:
[1]
https://deepfloyd.ai/deepfloyd-if
[2]https://stability.ai/blog/deepfloyd-if-text-to-image-model
[3]https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot
[4]https://stable-diffusion-art.com/how-stable-diffusion-work/

量子位智库「中国AIGC产业全景报告」

开放下载!

行业首份AIGC产业全景报告已经开放下载!

三大类玩家、四种商业模式、万亿规模市场、最值得关注的50家企业,还有具体的赛道部署机会和行业变革机遇,都将在报告内一一分析呈现。更多产业洞察,不容错过。

公众号后台回复 “ AIGC ” 即可下载完整报告~


点这里👇关注我,记得标星哦~


一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPTCVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent DiffusionStable Diffusion 版本更新,生成图片更加真实Stability AI连扔两个王炸!首个开源RLHF模型登基,DeepFloyd IF像素级出图蔡天凤头七!现任丈夫及亲友携祭祀品,前往凶案现场为其“招魂”阿娇为什么让陈冠希拍照而不阻止,真相曝光后,让人无语又泪目精通Stable Diffusion画图,理解LoRA、Dreambooth、Hypernetworks四大模型差异五秒AI绘画出图,全球最快的Stable Diffusion终于来了! [ 第364期 ]首个超大规模GAN模型!生成速度比Diffusion快20+倍,0.13秒出图,最高支持1600万像素CVPR 2023 | 统一框架MAGE:表征学习超MAE,无监督图像生成超越Latent DiffusionDiffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置大脑视觉信号被Stable Diffusion复现图像!“人类的谋略和谎言不存在了” | CVPR2023平息画师怒火:Stable Diffusion学会在绘画中直接「擦除」侵权概念与Midjourney开战!Stable Diffusion XL 0.9重磅发布,35亿+66亿双模型,AI图像生成飞跃式进步比Diffusion更快!OpenAI新图像生成模型开源了!清华校友宋飏一作蔡天凤妹妹美貌更惊为天人!母亲雍容华贵三观正,现丈夫宽厚大爱AI读脑炸裂!扫描大脑画面,Stable Diffusion逼真复现图像Stable Diffusion能生成视频了!动画版上线!支持文本图像视频多种输入方式Stable Diffusion公司重磅开源大语言模型StableLM,又爆火了!Stable Diffusion团队放大招!新绘画模型直出AI海报谷歌模型支持手机上跑Stable Diffusion;普华永道砸10亿美元投资AIGC;天翼云将推出大模型丨AIGC大事日报“荷尔蒙”分泌旺盛的女人,有哪些突出“特征”?不妨对照自查AIGC教程:如何使用Stable Diffusion,实现PBR材质纹理自由?Stable Diffusion又出大招!「文生动画」震撼发布淘汰导演,DC英雄一秒变身给图片悄悄加上像素级水印:防止AI「抄袭」艺术作品的方法找到了直播预告:基于AIACC加速器快速实现Stable-Diffusion AI绘画|阿里云加速AIGC技术公开课Stability AI 发布开源版 DreamStudio,可使用最新 Stable Diffusion XL 图像生成器刘燕AIGC教程:如何使用Stable Diffusion生成风格化游戏物品和图标Stable Diffusion读你大脑信号就能重现图像,研究还被CVPR接收了一遍就会!AI绘画Stable Diffusion新手入门教程AIGC教程:Stable Diffusion精进,如何训练特定画风LoRA模型?AIGC玩出新花样!Stable Diffusion公司提出基于扩散模型的视频合成新模型红毯来了!“大嫂”高叶真空出席,李小冉皱纹抢镜,倪妮白到发光图像生成终结扩散模型,OpenAI「一致性模型」加冕!GAN的速度一步生图,高达18FPSYann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。