Redian新闻
>
Stable Diffusion 3 API 发布!超越Midjourney v6和DALL-E 3

Stable Diffusion 3 API 发布!超越Midjourney v6和DALL-E 3

科技

夕小瑶科技说 原创
作者 | 任同学
Stable Diffusion 3 于 2 月首次宣布作为预览版发布。而今天,StabilityAI 正式推出了 Stable Diffusion 3 和 Stable Diffusion 3 Turbo API 的API接口服务。

Stability AI 称仍在持续改进该模型,并没有说明发布日期。模型还没发布,但API先来了!

官方宣传称SD3模型在文字到图像生成领域的表现达到或超过了DALL-E 3和Midjourney v6等行业领先模型,尤其是在字体和提示遵循方面。

Stability AI 宣布其开发者平台API现已支持Stable Diffusion 3及其增强版本Stable Diffusion 3 Turbo。现在开发者可以通过这个 API 接口,来快速开发有趣的应用程序了!

与网友们的预期不同的是,这次还有一个 Stable Diffusion 3 Turbo 的型号可供选择,难道这是另一个大招吗?

虽然模型还未开源,但StabilityAI 承诺:

我们致力于开放生成式人工智能,计划在不久的将来对 Stability AI 会员资格开放模型权重,实现自行托管。

接下来就是欣赏Stable Diffusion 3 的艺术时刻:😎

提示: 白色建筑顶上的红色沙发。涂鸦上写着“全城最佳景观”。(A red sofa on top of a white building. Graffiti with the text “the best view in the city”.)

▲图2.

提示: 拟人化的乌龟坐在纽约地铁上的肖像照片。(Portrait photograph of an anthropomorphic tortoise seated on a New York City subway train.)

▲图3.

提示: 唯美的粉彩魔幻现实主义,一个男人以复古电视为头,站在沙漠中央,复古的照片。(Aesthetic pastel magical realism, a man with a retro TV for a head, standing in the center of the desert, vintage photo.)

▲图4.

提示: 一个纸板箱,上面写着“他们说在这里不适合思考”,这个纸板箱很大,放在剧院的舞台上。(A cardboard box with the phrase “they say it's not good to think in here”, the cardboard box is large and sits on a theater stage.)

▲图5.

与FireworksAI 合作提供可靠API服务

StabilityAI表示,他们已经与市场上最快、最可靠的 API 平台 FireworksAI 合作,提供 Stable Diffusion 3 和 Stable Diffusion 3 Turbo。

在 StabilityAI 的技术文档中我们也可以看到目前的 API 提供商即为 FireworksAI。

借助 Fireworks AI,StabilityAI 将可以提供企业级 API 解决方案,确保 99.9% 的服务可用性。

不过,官网提供的 Pricing 显示,SD3 是比 SD3 Turbo 更好的模型,价格差不多比后者高了 40%!按道理说,Turbo 不是应该更贵吗?🤔

目前的每 1000 credits 的价格是 10 美元,大概可以用来购买 5000 张 SDXL 1.0 的图片,而这大约只能生成 153 张 SD3 或者是 250 张 SD3 Turbo 的照片。

▲图1.

Stable Diffusion 3 有多强?

在 2 月份发布的论文中,我们已经可以看到 Stable Diffusion 3 在视觉质量、提示跟随和排版生成方面优于当前最先进的文本到图像模型,包括其他开源模型(包括 SDXL,SDXL Turbo,Stable Cascade,Playground v2.5 和 Pixart-α)以及闭源模型(如 DALL・E 3,Midjourney v6 和 Ideogram v1)。

▲图6.

对比上代模型,SD3 采用了与Sora类似的 Diffusion Transformer 技术,并结合了流匹配(Flow Matching)等多项技术改进,不仅使得系统扩展性更强,还能处理多种类型的输入数据。

▲图7. Stable Diffusion 3 的总体架构。

新的 Multimodal Diffusion Transformer(MMDiT)架构使用独立的权重集合来表示图像和语言,这与以前版本的 Stable Diffusion 相比,提高了文本理解和拼写能力。

在 MMDiT 架构中,文本和图像的表示分别通过预训练模型进行编码。

具体地说,MMDiT 采用了三种不同的文本嵌入器(两个 CLIP 模型和 T5 模型),以及一个改进的自动编码模型来编码图像 token。这些编码器能够将文本和图像输入转换为模型可以理解和处理的格式,为强大的 SD3 模型提供了基础。

网友们怎么看?

StabilityAI 创始人兼 CEO,Emad Mostaque 曾表示,与视频、语言、代码、3D、音频等一样,Stable Diffusion 3 也将会开源。而网友们则是对此次先提供 API 的行为表示不理解。

难道 StabilityAI 也要做下一个 ClosedAI 了?

不过,底下的网友们也对开源和闭源有着更宽容的理解,也希望公司能够在开源和赚钱之前找到一个平衡点,不要彻底成为下一个 ClosedAI(手动狗头)。

最后,送给各位潜在的艺术家hh:

参考资料

 [1]https://stability.ai/news/stable-diffusion-3
 [2]https://venturebeat.com/ai/stable-diffusion-3-api-now-available-as-stable-assist-effort-looms/
 [3]https://twitter.com/StabilityAI/status/1780599024707596508
 [4]https://stability.ai/news/stable-diffusion-3-research-paper
 [5]https://stability.ai/news/stable-diffusion-3-api

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Wells Fargo Autograph Journey 信用卡【3月9日实体店上线,5x 酒店,4x 航空,60k开卡奖励】麻州顶级学区,波士顿好房推荐,本周Open House房源精选--Wellesley/Newton/Lexington打败 Midjourney,这个异军突起的 AI 产品凭什么?| 附免费试用链接Young Chinese Have Almost No Concerns About AI, Survey FindsAPAD: close the stable door after the horse has bolted[旅游] Día de la Independencia | 2017年9月游墨西哥城第3-4天VAST宋亚宸:3D生成迈入秒级时代,今年将做到Midjourney V5/V6水平丨GenAICon 2024波士顿顶尖学区,周末Open House房源精选--Weston/Wellesley/Newton/Lexington突发!Stable Diffusion 核心团队被曝集体离职Stable Diffusion老板也跑了!核心研发已集体辞职,“稳定AI”乱成一锅粥Stable Diffusion老板跑路开新坑,被抛下的SD3开源成了烂摊子捷克特雷津纳粹集中营(Terezin),翻开历史成就了Sora和Stable diffusion 3的DiTs,究竟是啥Chinese Parents Falling Prey to Dubious Myopia ‘Miracle Cures’初八的好运“青”很好Stable Diffusion 3 论文终于发布,架构细节大揭秘,对复现 Sora 有帮助?发完最后一篇论文,Stable Diffusion核心团队全要离职了EducationUSA Virtual Event: Courageous Counseling每天10句英语口语|Would you mind if I use your phone?CEO正式跑路,“游戏人的第一个AI”Stable Diffusion濒临倒闭?Suno AI:音乐生成迎来MidJourney时刻,Suno能否挑战Spotify?Stable Diffusion 3开源秒翻车,画人好掉san微软“去OpenAI化”引发高层洗牌:必应CEO被DeepMind联创挤跑!纳德拉会见Stable Diffusion老板打败 Midjourney,这个 Google 大牛推出的 AI 产品凭什么弯道超车一心为人不为己集体出走的Stability AI 发布全新代码大模型,3B以下性能最优,超越Code Llama和DeepSeek-Coder快速入门大模型技术与应用,推荐你从Stable Diffusion开始学起AI早知道|Midjourney推出新功能Room;百度文库上线智能漫画功能华为P70将登场!最强AI手机,90%零件全国产,定位超越Mate系列…肯定爆款Midjourney 进军硬件,曾被曝挖角苹果 Vision Pro 工程师 | Hunt Good 周报《太阳的笑容》&《可怜父母心》永久激活 GPT4.0 和Midjourney !无限使用!Stable Diffusion核心团队被曝集体离职;微软利用AI Agent复现Sora丨AIGC日报Le JOURNAL | 工艺交融 Crafted Blends突发!Stable Diffusion老板也跑了!核心研发已集体辞职,已经unstable了...
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。