国际科技财经博客移民网络热点娱乐民生时事公众号

>

终结扩散模型，IGN单步生成逼真图像！UC伯克利谷歌革新LLM，美剧成灵感来源

终结扩散模型，IGN单步生成逼真图像！UC伯克利谷歌革新LLM，美剧成灵感来源

公众号新闻

2023-11-13 22:11

新智元报道

编辑：桃子

【新智元导读】生成式AI模型的新范式要来了。UC伯克利谷歌提出幂等生成网络（IGN），只需单步即可生图。

已经红遍半边天的扩散模型，将被淘汰了？

当前，生成式AI模型，比如GAN、扩散模型或一致性模型，通过将输入映射到对应目标数据分布的输出，来生成图像。

通常情况下，这种模型需要学习很多真实的图片，然后才能尽量保证生成图片的真实特征。

最近，来自UC伯克利和谷歌的研究人员提出了一种全新生成模型——幂等生成网络（IGN）。

论文地址：https://arxiv.org/abs/2311.01462

IGNs可以从各种各样的输入，比如随机噪声、简单的图形等，通过单步生成逼真的图像，并且不需要多步迭代。

这一模型旨在成为一个「全局映射器」（global projector），可以把任何输入数据映射到目标数据分布。

简言之，通用图像生成模型未来一定是这样的。

有趣的是，《宋飞正传》中一个高效的场景竟成为作者的灵感来源。

这个场景很好地总结了「幂等运算符」（idempotent operator）这一概念，是指在运算过程中，对同一个输入重复进行运算，得到的结果总是一样的。

即。

正如Jerry Seinfeld幽默地指出的那样，一些现实生活中的行为也可以被认为是幂等的。

幂等生成网络

IGN与GAN、扩散模型有两点重要的不同之处：

- 与GAN不同的是，IGN无需单独的生成器和判别器，它是一个「自对抗」的模型，同时完成生成和判别。

- 与执行增量步骤的扩散模型不同，IGN尝试在单个步中将输入映射到数据分布。

那么，幂等生成模型（IGN）怎么来的？

它被训练为从源分布给定输入样本的目标分布，生成样本。

给定示例数据集，每个示例均取自。然后，研究人员训练模型将映射到。

假设分布和位于同一空间，即它们的实例具有相同的维度。这允许将应用于两种类型的实例和。

如图展示了IGN背后的基本思想：真实示例 (x) 对于模型 f 是不变的。其他输入 (z) 被映射到f通过优化映射到自身的实例流上。

IGN训练例程PyTorch代码的一部分示例。

实验结果

得到IGN后，效果如何呢？

作者承认，现阶段，IGN的生成结果无法与最先进的模型相竞争。

在实验中，使用的较小的模型和较低分辨率的数据集，并在探索中主要关注简化方法。

当然了，基础生成建模技术，如GAN、扩散模型，也是花了相当长的时间才达到成熟、规模化的性能。

实验设置

研究人员在MNIST（灰度手写数字数据集）和 CelebA（人脸图像数据集）上评估IGN，分别使用28×28和64×64的图像分辨率。

作者采用了简单的自动编码器架构，其中编码器是来自DCGAN的简单五层鉴别器主干，解码器是生成器。训练和网络超参数如表1所示。

生成结果

图4显示了应用模型一次和连续两次后两个数据集的定性结果。

如图所示，应用IGN 一次 (f (z)) 会产生相干生成结果。然而，可能会出现伪影，例如MNIST数字中的孔洞，或者面部图像中头顶和头发的扭曲像素。

再次应用 f (f (f (z))) 可以纠正这些问题，填充孔洞，或减少面部噪声斑块周围的总变化。

图7显示了附加结果以及应用f三次的结果。

比较和表明，当图像接近学习流形时，再次应用f会导致最小的变化，因为图像被认为是分布的。

潜在空间操纵

作者通过执行操作证明IGN具有一致的潜在空间，与GAN所示的类似，图6显示了潜在空间算法。

分布外映射

作者还验证通过将来自各种分布的图像输入到模型中以生成其等效的「自然图像」，来验证IGN「全局映射」的潜力。

研究人员通过对噪声图像x+n 进行去噪、对灰度图像进行着色，以及将草图转换为图5中的真实图像来证明这一点。

原始图像x，这些逆任务是不适定的。IGN能够创建符合原始图像结构的自然映射。

如图所示，连续应用f可以提高图像质量（例如，它消除了投影草图中的黑暗和烟雾伪影）。

谷歌下一步？

通过以上结果可以看出，IGN在推理方面更加有效，在训练后只需单步即可生成结果。

它们还可以输出更一致的结果，这可能推广到更多的应用中，比如医学图像修复。

论文作者表示：

我们认为这项工作是迈向模型的第一步，该模型学习将任意输入映射到目标分布，这是生成建模的新范式。

接下来，研究团队计划用更多的数据来扩大IGN的规模，希望挖掘新的生成式AI模型的全部潜力。

最新研究的代码，未来将在GitHub上公开。

参考资料：

https://assafshocher.github.io/IGN/

https://the-decoder.com/inspired-by-seinfeld-google-unveils-new-ai-model-for-image-generation/

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

DreamLLM：多功能多模态大型语言模型，你的DreamLLM~生成扩散模型漫谈：中值定理加速ODE采样 AIGC时代的视频扩散模型，复旦等团队发布领域首篇综述我不是虎妈—另类哈佛妈妈与女儿一起长大（二）逍遥岁月（八）内讧骤起 NeurIPS 2023 | SlotDiffusion: 基于Slot-Attention和扩散模型的全新生成模型 DALL·E 3内部实测效果惊人！Karpathy生成逼真灵动「美国小姐」，50个物体一图全包老外自创了一款桌游，灵感来源于中国生成的分子几乎 100% 有效，用于逆向分子设计的引导扩散模型小模型如何比肩大模型，北理工发布明德大模型MindLLM，小模型潜力巨大苹果“套娃”式扩散模型，训练步数减少七成！狙击扩散模型！谷歌&伯克利提出IGN：单步生成逼真图像！NeurIPS 2023 | 扩散模型再发力！微软提出TextDiffuser：图像生成的文字部分也能搞定！GPT-4+物理引擎加持扩散模型，生成视频逼真、连贯、合理攻克图像「文本生成」难题，碾压同级扩散模型！两代TextDiffuser架构深度解析 UC伯克利团队开源MemGPT大模型上下文内存管理方案；AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源计算机视觉迎来GPT时刻！UC伯克利三巨头祭出首个纯CV大模型！逆袭的妈妈一母亲去世周年祭老钱：腮腺炎的故事《爵》大语言模型击败扩散模型！视频图像生成双SOTA，谷歌CMU最新研究，一作北大校友 NeurIPS 2023 Spotlight | 半监督与扩散模型结合，实现少标签下可控生成顺着网线爬过来成真了，Audio2Photoreal通过对话就能生成逼真表情与动作语言模型战胜扩散模型！谷歌提出MAGVIT-v2：视频和图像生成上实现双SOTA！在图像、视频生成上，语言模型首次击败扩散模型，tokenizer是关键通用视觉推理显现，UC伯克利炼出单一纯CV大模型，三位资深学者参与北京理工大学发布双语轻量级语言模型，明德大模型—MindLLM，看小模型如何比肩大模型 UC伯克利脑机接口新突破！利用脑电波即可复现歌曲，语言障碍者有福了？手机上0.2秒出图、当前速度之最，谷歌打造超快扩散模型MobileDiffusion 单GPU运行数千大模型！UC伯克利提出全新微调方法S-LoRA UC伯克利等发布多模态基础模型CoDi-2；谷歌DeepMind利用AI工具发现200万种新材料丨AIGC日报计算机视觉GPT时刻！UC伯克利三巨头祭出首个纯CV大模型，推理惊现AGI火花加州伯克利国际生录取率仅5.15%！UC系大学公布最新录取数据 2023年万圣节必看！明星们万圣节造型有多奇葩！玛丽莲梦露、赫本经典造型重现！今年的灵感来源大合集！一定要收藏...LLM吞吐量提高2-4倍，模型越大效果越好！UC伯克利、斯坦福等开源高效内存管理机制PagedAttention

热点事件追踪