TPAMI 2023 | 生成式AI与图像合成综述

2023-09-12 06:09

©作者 | 占方能

单位 | 马普所博后

研究方向 | 神经渲染、生成模型

生成式 AI 作为当前人工智能领域的前沿技术，已被广泛的应用于各类视觉合成任务。

随着 DALL-E2，Stable Diffusion 和 DreamFusion 的发布，AI 作画和 3D 合成实现了令人惊叹的视觉效果并且在全球范围内的爆炸式增长。这些生成式 AI 技术深刻地拓展了人们对于 AI 图像生成能力的认识，那么这些生成式 AI 方法是如何生成以假乱真的视觉效果？又是如何利用深度学习和神经网络技术来实现画作、3D 生成以及其他创造性任务的呢？我们的综述论文将会给您提供这些问题的答案。

论文地址：

https://arxiv.org/abs/2112.13592

GitHub地址：

https://github.com/fnzhan/Generative-AI

项目地址：

https://fnzhan.com/Generative-AI/

在第一章节，该综述描述了多模态图像合成与编辑任务的意义和整体发展，以及本论文的贡献与总体结构。

在第二章节，根据引导图片合成与编辑的数据模态，该综述论文介绍了比较常用的视觉引导，文字引导，语音引导，还有近期 DragGAN 提出的控制点引导等，并且介绍了相应模态数据的处理方法。

在第三章节，根据图像合成与编辑的模型框架，该论文对目前的各种方法进行了分类，包括基于 GAN 的方法，扩散模型方法，自回归方法，和神经辐射场（NeRF）方法。

由于基于 GAN 的方法一般使用条件 GAN 和 GAN 反演，因此该论文进一步根据控制条件的融合方式，模型的结构，损失函数设计，多模态对齐，和跨模态监督进行了详细描述。

近期，火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的 DALLE-2 和 Imagen 都是基于扩散模型实现的。相比于 GAN，扩散式生成模型拥有一些良好的性质，比如静态的训练目标和易扩展性。该论文依据条件扩散模型和预训练扩散模型对现有方法进行了分类与详细分析。

相比于基于 GAN 和扩散模型的方法，自回归模型方法能够更加自然的处理多模态数据，以及利用目前流行的 Transformer 模型。自回归方法一般先学习一个向量量化编码器将图片离散地表示为 token 序列，然后自回归式地建模 token 的分布。由于文本和语音等数据都能表示为 token 并作为自回归建模的条件，因此各种多模态图片合成与编辑任务都能统一到一个框架当中。

以上方法主要聚焦于 2D 图像的多模态合成与编辑。近期随着神经辐射场（NeRF）的迅速发展，3D 感知的多模态合成与编辑也吸引了越来越多的关注。由于需要考虑多视角一致性，3D 感知的多模态合成与编辑是更具挑战性的任务。本文针对单场景优化 NeRF，生成式 NeRF 两种方法对现有工作进行了分类与总结。