Redian新闻
>
顶刊TPAMI 2023!生成式AI与图像合成综述发布!

顶刊TPAMI 2023!生成式AI与图像合成综述发布!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【扩散模型和Transformer】交流群


生成式AI作为当前人工智能领域的前沿技术,已被广泛的应用于各类视觉合成任务。

随着DALL-E2,Stable Diffusion和DreamFusion的发布,AI作画和3D合成实现了令人惊叹的视觉效果并且在全球范围内的爆炸式增长。这些生成式AI技术深刻地拓展了人们对于AI图像生成能力的认识,那么这些生成式AI方法是如何生成以假乱真的视觉效果?又是如何利用深度学习和神经网络技术来实现画作、3D生成以及其他创造性任务的呢?我们的综述论文将会给您提供这些问题的答案。

在CVer微信公众号后台回复:AIGC综述,可下载打包好的本综述pdf
论文:https://arxiv.org/abs/2112.13592
GitHub地址:
https://github.com/fnzhan/Generative-AI

项目地址:https://fnzhan.com/Generative-AI/

在第一章节,该综述描述了多模态图像合成与编辑任务的意义和整体发展,以及本论文的贡献与总体结构。

在第二章节,根据引导图片合成与编辑的数据模态,该综述论文介绍了比较常用的视觉引导,文字引导,语音引导,还有近期DragGAN提出的控制点引导等,并且介绍了相应模态数据的处理方法。

在第三章节,根据图像合成与编辑的模型框架,该论文对目前的各种方法进行了分类,包括基于GAN的方法,扩散模型方法,自回归方法,和神经辐射场(NeRF)方法。

由于基于GAN的方法一般使用条件GAN和 GAN 反演,因此该论文进一步根据 控制条件的融合方式,模型的结构,损失函数设计,多模态对齐,和跨模态监督进行了详细描述。

近期,火热的扩散模型也被广泛应用于多模态合成与编辑任务。例如效果惊人的DALLE-2和Imagen都是基于扩散模型实现的。相比于GAN,扩散式生成模型拥有一些良好的性质,比如静态的训练目标和易扩展性。该论文依据条件扩散模型和预训练扩散模型对现有方法进行了分类与详细分析。

相比于基于GAN和扩散模型的方法,自回归模型方法能够更加自然的处理多模态数据,以及利用目前流行的Transformer模型。自回归方法一般先学习一个向量量化编码器将图片离散地表示为token序列,然后自回归式地建模token的分布。由于文本和语音等数据都能表示为token并作为自回归建模的条件,因此各种多模态图片合成与编辑任务都能统一到一个框架当中。

以上方法主要聚焦于2D图像的多模态合成与编辑。近期随着神经辐射场(NeRF)的迅速发展,3D感知的多模态合成与编辑也吸引了越来越多的关注。由于需要考虑多视角一致性,3D感知的多模态合成与编辑是更具挑战性的任务。本文针对单场景优化NeRF,生成式NeRF两种方法对现有工作进行了分类与总结。

随后,该综述对以上四种模型方法的进行了比较和讨论。总体而言,相比于GAN,目前最先进的模型更加偏爱自回归模型和扩散模型。而NeRF在多模态合成与编辑任务的应用为这个领域的研究打开了一扇新的窗户。

在第四章节,该综述汇集了多模态合成与编辑领域流行的数据集以及相应的模态标注,并且针对各模态典型任务(语义图像合成,文字到图像合成,语音引导图像编辑)对当前方法进行了定量的比较。同时也对多种模态同时控制生成的结果进行了可视化。

在第五章节,该综述对此领域目前的挑战和未来方向进行了探讨和分析,包括大规模的多模态数据集,准确可靠的评估指标,高效的网络架构,以及3D感知的发展方向。

在第六和第七章节,该综述分别阐述了此领域潜在的社会影响和总结了文章的内容与贡献。

在CVer微信公众号后台回复:AIGC综述,可下载打包好的本综述pdf

点击进入—>【扩散模型和Transformer】交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

扩散模型和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如扩散模型或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
扔掉okhttp、httpClient,来试试这款轻量级 HTTP 客户端框架,吹爆!2024U.S. News 全美本科「工程专业」排名发布!佐治亚理工跻身前3!UTMB 越野《生成式人工智能服务管理暂行办法》实施,8家备案模型生成内容真实性如何?“不发顶刊就分手!”某院医学博士因没有顶刊被甩!反手就报复性发文!上海自行车馆完成综合竣工验收!Texas Sunshine 2023《月光爱人》&《想你的365天》父女情谊的复盘:聊聊电影“Aftersun“新出炉的Indiana Jones and the Dial of Destiny 2023 ‧ Adventure中文在线宣布发布“逍遥”大模型,可一键生成万字小说;谷歌称将保护生成式人工智能用户免受版权索赔丨AIGC日报顶刊TIP 2023!重新思考跨域行人检测:无实例单阶段检测器的背景聚焦分布对齐框架火了132年!经典老牌𝙐𝙎𝙋𝘼(美国马球协会)打底衫来了!上身就是高级感,真香!火了132年!经典老牌𝙐𝙎𝙋𝘼(美国马球协会)打底衫来了!3折抢!真香国自然选题风向标?吃透这10篇顶刊综述,助你快速筛选出前沿热点!(免费送书)GACS 2023 | IPU:赋能生成式AI,不止生成式AI全文 |《生成式人工智能服务内容标识方法》发布!三登雪山 Mt. Shasta 2023.07.08ICCV 2023 Oral | HumanSD:更可控更高效的人体图像生成模型硬核观察 #1164 艺术家使用图像投毒工具反击生成式人工智能TPAMI 2023 | 生成式AI与图像合成综述顶刊TMM 2023!中科院提出CLIP-VG:基于自步课程学习实现CLIP在视觉语言理解与定位任务上的无监督迁移研究老妈的大爱!NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!第3年那1年内每100辆车有多少毛病顶刊TPAMI 2023!西电提出TIB:通过双流信息瓶颈检测未知物体瑞士洛桑联邦理工学院发表IF108+重磅综述!解密屡屡登上顶刊的信号通路!ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成第五章 列宁主义救中国 (2)太湖美!太湖臭?ICCV 2023 | HumanSD: 更可控更高效的人体图像生成模型遥感顶刊TGRS 2023!MUS-CDB:遥感目标检测中的主动标注的具有类分布平衡的混合不确定性采样七部门联合公布!事关生成式人工智能→拜登夫人二阳 多地恢复口罩令! 加拿大住院率激增55% 华人自述发烧测不出阳MIT研究人员将Transformer与图神经网络结合,用于设计全新蛋白质中央网信办发布《全球人工智能治理倡议》;微软正式发布AI内容审核工具;OpenAI开发可高精度检测AI生成图像工具丨AIGC日报生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作Midjourney重大升级,网页版正式上线!生成图像真实清晰MAGUS:机器学习与图论辅助的晶体结构搜索凯捷:生成式AI的收获季节:各行业生成式AI的广泛应用
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。