Redian新闻
>
OpenAI救了Stable Diffusion!开源Dall·E3同款解码器,来自Ilya宋飏等

OpenAI救了Stable Diffusion!开源Dall·E3同款解码器,来自Ilya宋飏等

公众号新闻
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

没想到,OpenAI捞了“竞对”Stable Diffusion一把。

在热火朝天的“AI春晚”上,OpenAI一口气开源两项工作,其中之一一致性解码器,专门面向SD的VAE模型。

它能让图像生成质量更高、更稳定,比如多人脸、带文字图像以及线条控制方面。

大V博主分析这个解码器应该是Dall·E 3同款,在GitHub项目页上OpenAI也提供了Dall·E 3论文。


它具体支持的版本是Stable Diffusion 1.4/1.5。

项目页上只放了一个例子,具体怎么训练没有写,被网友称为“人狠话不多式开源”。

你们直接加载使用就好。

而且这个一致性解码器颇有渊源。

它来自OpenAI联创及首席科学家Ilya、OpenAI华人新星宋飏等人提出的一致性模型(Consistency Models)。

上半年这个模型开源时就引发业内震动,被评为能“终结扩散模型”。

就在前不久,宋飏等人还对模型训练方法做了优化,能进一步提升图像生成质量。

开发者日的另一项重磅开源是语音大模型Whisper 3。它同样出自传奇人物之手,一作Alec Radford对GPT系列的构建起到了重要作用。

网友们不禁感慨:还是爱看OpenAI开源啊,期待继续开放更多模型。

一致性模型完成再进化

先来看最初名震江湖的第一版一致性模型(Consistency Models)。

它旨在解决扩散模型通过逐步迭代、导致图像生成缓慢的问题。仅需3.5秒即可生成64张左右256×256的图像。

相比扩散模型,它主要有两大优势:

其一,无需对抗训练(adversarial training),就能直接生成高质量的图像样本。

其二,相比扩散模型可能需要几百甚至上千次迭代,一致性模型只需要一两步就能搞定多种图像任务——

包括上色、去噪、超分等,都可以在几步之内搞定,而不需要对这些任务进行明确训练。(当然,如果进行少样本学习的话,生成效果也会更好)

原理上,一致性模型直接把随机的噪声映射到复杂图像上,输出都是同一轨迹上的同一点,所以实现一步生成。

论文提出两种训练方法,一种是基于一致性蒸馏,利用预训练的扩散模型生成相邻数据对,通过最小化模型输出之间的差异,来训练一致性模型。

另一种方法是独立训练,将一致性模型作为独立生成模型训练。

实验结果表明,一致性模型在一步和少步采样方面优于现有的蒸馏技术,如渐进式蒸馏。

当作为独立的生成模型进行训练时,一致性模型可以与现有的一步非对抗生成模型在标准基准测试汇总媲美,如CIFAR-10、ImageNet 64×64和LSUN 256×256。

半年后发布的第二版论文,对训练方法进行了优化

它通过优化权重函数、噪声嵌入和dropout,使得一致性模型在不需要依赖学习过的特征,也能达到很好的生成质量。

它改进了权重函数的选择,使其随着噪声水平的增加而减小,这使得在较小噪声水平处的一致性损失权重更大,从而提升样本质量。

同时调整了噪声嵌入层的敏感性,使其降低对微小噪声差异的敏感性,有助于提高连续时间一致性训练的稳定性。

并且发现了在一致性模型中使用较大dropout、移除teacher network中的EMA、将学习过的特征距离(如LPIPS)替换Pseudo-Huber损失函数,都能能进一步提高图像质量。

One More Thing

回到这次最新开源的解码器,第一波实测体验已经来了。

目前看到的一些效果,提升不算明显,而且不少人反映运行速度慢。

但这还是最早期的测试,后续或许会有更多提升。

值得一提的是,领衔推出一致性模型的宋飏,年纪轻轻但是已被评为扩散模型圈OG(元老)了。

来自英伟达AI科学家Jim Fan推特

今年,凭借一致性模型,宋飏也名震江湖。这位大佬16岁就当理科状元上清华了,关于他的更多故事可戳:OpenAI当红新星宋飏:最新研究获评「终结扩散模型」,16岁上清华

论文地址:
[1]
https://arxiv.org/abs/2310.14189
[2]https://arxiv.org/abs/2303.01469

《2023年度十大前沿科技报告》案例征集

量子位智库《2023年度十大前沿科技报告》,启动案例征集。诚邀顶级研究机构、一流投资大咖、前沿科技创新公司,参与共创,分享案例。

扫描图片二维码参与前沿科技案例征集。了解更多细节可联系报告负责人:郑钰瑶(微信:CarolineZheng_,请备注企业+姓名)。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
龙行龘(dá)龘(dá)!2024央视春晚宣布→DALL·E 3 微软Bing抢先测!马骑宇航员难题攻破!一张画指定50个物体红色日记 革委会 8.11-20nǚ hóng?nǚ gōngGPT-4版微软Win11下周二见;千亿参数生物医药大模型面世;DALL·E 3模型将接入Bing丨AIGC大事日报DALL·E 3辣眼图流出!OpenAI 22页报告揭秘:ChatGPT自动改写PromptAdobe新版AI绘画炸场,2k分辨率在线就能玩,网友:效果比DALL·E 3更强GPT-4写代码,DALL·E 3+MJ搞定画面,AI版「愤怒的南瓜」来袭DALL·E 3 推理能力炸裂提升,OpenAI 抢跑“ChatGPT 原生”科大讯飞回应美国AI芯片出口管制;DALL·E 3正式上线ChatGPT Plus和企业版丨AIGC日报体验 ChatGPT+DALL·E 3 王炸组合后,我再也回不去了DALL·E 3=Midjourney+PS?OpenAI悄悄推出「种子」功能,生图之后还能精修DALL·E 3正式上线ChatGPT;智谱AI今年已融资25亿元;科大讯飞回应美国AI芯片出口管制丨AIGC大事日报新闻解读:2023年G20最终声明揭秘编码器与解码器语言模型龙行龘(dá)龘(dá)!这些三叠字怎么念?《红玫瑰》&《突然的自我》西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体,微软前所未有深度参与研究6005 血壮山河之随枣会战 “和平运动 ” 5微软深夜放大招:GPT-4 、DALL·E 3、GPTs免费用,自研大模型专用AI芯片OpenAI一夜颠覆AI绘画!DALL·E 3+ChatGPT强强联合,画面直接细节爆炸ChatGPT与DALL·E 3之间的行业「黑话」被人发现了OpenAI祭出绘画神器,Midjourney一夜下台!DALL·E 3联手ChatGPT,无需prompt一笔成神今生与来生DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”OpenAI扔出DALL·E 3!能画画的ChatGPT要来了:简单提示,讲出“超级向日葵刺猬”连环画对标DALL·E 3!Meta最强文生图Emu技术报告出炉体验 DALL·E 3 + ChatGPT 王炸组合后,我感受到了甲方的快乐龙行龘(dá)龘(dá)!DALL·E 3瞬间生成素材,零成本制作数千万流水游戏!OpenAI总裁转赞微软Copilot进化完全体,代码解释器、DALL·E 3,ChatGPT有的它都有不到 600 行代码实现了《愤怒的小鸟》翻版,GPT-4+DALL·E 3+Midjourney 撼动游戏圈!Midjourney V6来袭!性能对标DALL·E 3,争夺地表最强作图AI称号DALL·E 3内部实测效果惊人!Karpathy生成逼真灵动「美国小姐」,50个物体一图全包
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。