Redian新闻
>
TPAMI 2023 | 生成式AI与图像合成综述

TPAMI 2023 | 生成式AI与图像合成综述

公众号新闻
©作者 | 占方能
单位 | 马普所博后
研究方向 | 神经渲染、生成模型


生成式 AI 作为当前人工智能领域的前沿技术,已被广泛的应用于各类视觉合成任务。

随着 DALL-E2,Stable Diffusion 和 DreamFusion 的发布,AI 作画和 3D 合成实现了令人惊叹的视觉效果并且在全球范围内的爆炸式增长。这些生成式 AI 技术深刻地拓展了人们对于 AI 图像生成能力的认识,那么这些生成式 AI 方法是如何生成以假乱真的视觉效果?又是如何利用深度学习和神经网络技术来实现画作、3D 生成以及其他创造性任务的呢?我们的综述论文将会给您提供这些问题的答案。

论文地址:

https://arxiv.org/abs/2112.13592

GitHub地址:

https://github.com/fnzhan/Generative-AI

项目地址:

https://fnzhan.com/Generative-AI/


在第一章节,该综述描述了多模态图像合成与编辑任务的意义和整体发展,以及本论文的贡献与总体结构。

在第二章节,根据引导图片合成与编辑的数据模态,该综述论文介绍了比较常用的视觉引导,文字引导,语音引导,还有近期 DragGAN 提出的控制点引导等,并且介绍了相应模态数据的处理方法。
在第三章节,根据图像合成与编辑的模型框架,该论文对目前的各种方法进行了分类,包括基于 GAN 的方法,扩散模型方法,自回归方法,和神经辐射场(NeRF)方法。

由于基于 GAN 的方法一般使用条件 GAN 和 GAN 反演,因此该论文进一步根据 控制条件的融合方式,模型的结构,损失函数设计,多模态对齐,和跨模态监督进行了详细描述。
近期,火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的 DALLE-2 和 Imagen 都是基于扩散模型实现的。相比于 GAN,扩散式生成模型拥有一些良好的性质,比如静态的训练目标和易扩展性。该论文依据条件扩散模型和预训练扩散模型对现有方法进行了分类与详细分析。

相比于基于 GAN 和扩散模型的方法,自回归模型方法能够更加自然的处理多模态数据,以及利用目前流行的 Transformer 模型。自回归方法一般先学习一个向量量化编码器将图片离散地表示为 token 序列,然后自回归式地建模 token 的分布。由于文本和语音等数据都能表示为 token 并作为自回归建模的条件,因此各种多模态图片合成与编辑任务都能统一到一个框架当中。
以上方法主要聚焦于 2D 图像的多模态合成与编辑。近期随着神经辐射场(NeRF)的迅速发展,3D 感知的多模态合成与编辑也吸引了越来越多的关注。由于需要考虑多视角一致性,3D 感知的多模态合成与编辑是更具挑战性的任务。本文针对单场景优化 NeRF,生成式 NeRF 两种方法对现有工作进行了分类与总结。
随后,该综述对以上四种模型方法的进行了比较和讨论。总体而言,相比于 GAN,目前最先进的模型更加偏爱自回归模型和扩散模型。而 NeRF 在多模态合成与编辑任务的应用为这个领域的研究打开了一扇新的窗户。
在第四章节,该综述汇集了多模态合成与编辑领域流行的数据集以及相应的模态标注,并且针对各模态典型任务(语义图像合成,文字到图像合成,语音引导图像编辑)对当前方法进行了定量的比较。同时也对多种模态同时控制生成的结果进行了可视化。
在第五章节,该综述对此领域目前的挑战和未来方向进行了探讨和分析,包括大规模的多模态数据集,准确可靠的评估指标,高效的网络架构,以及 3D 感知的发展方向。

在第六和第七章节,该综述分别阐述了此领域潜在的社会影响和总结了文章的内容与贡献。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
生成式AI-产业变革与机会论坛-2023世界人工智能大会Anjie Broad:2023年全球生成式人工智能行业监管研究报告火了132年!经典老牌𝙐𝙎𝙋𝘼(美国马球协会)打底衫来了!3折抢!真香第3年那1年内每100辆车有多少毛病安永&博智隆:2023银行保险金融机构生成式人工智能(GenAI) 战略报告易观分析:2023年AIGC产业研究报告-图像生成篇银行业生成式AI应用报告(2023)Nat Med丨斯坦福团队利用twitter资源,开发出“病理图像文本对应”的自然语言-图像预训练模型GACS 2023 | IPU:赋能生成式AI,不止生成式AI高通万卫星:生成式AI落地端侧,解密高通的软硬件AI大招丨GACS 2023高金智库:2023生成式人工智能服务合规发展白皮书【几个神奇的地方】【A Few Magical Places】《生成式人工智能服务管理暂行办法》实施,8家备案模型生成内容真实性如何?UTMB 越野扔掉okhttp、httpClient,来试试这款轻量级 HTTP 客户端框架,吹爆!一日登三峰 2023.07.29ICCV 2023 Oral | HumanSD:更可控更高效的人体图像生成模型阿大提出:视听分割合成新数据集和声音图像分割新网络带母亲去逛奥特莱斯ICCV 2023 | HumanSD: 更可控更高效的人体图像生成模型硬核观察 #1164 艺术家使用图像投毒工具反击生成式人工智能ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成NeurIPS 2023 | 如何从理论上研究生成式数据增强的效果?三登雪山 Mt. Shasta 2023.07.08你不知道的并不等于没发生NeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusionHADAR为热图像消除幽灵效应 提高图像的清晰度和细节火了132年!经典老牌𝙐𝙎𝙋𝘼(美国马球协会)打底衫来了!上身就是高级感,真香!Texas Sunshine 2023生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作中文在线宣布发布“逍遥”大模型,可一键生成万字小说;谷歌称将保护生成式人工智能用户免受版权索赔丨AIGC日报顶刊TPAMI 2023!生成式AI与图像合成综述发布!上海自行车馆完成综合竣工验收!MAGUS:机器学习与图论辅助的晶体结构搜索2023全球生成式AI应用全景图(附下载)莫斯科十大著名景点MIT研究人员将Transformer与图神经网络结合,用于设计全新蛋白质凯捷:生成式AI的收获季节:各行业生成式AI的广泛应用现金换钥匙赶房客NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。