Redian新闻
>
NeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusion

NeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusion

公众号新闻



  新智元报道  

编辑:LRS 好困
【新智元导读】不怕多视角图像变化大,MVDiffusion整合图片全局意识,内容一致性更高!


逼真的图像生成在虚拟现实、增强现实、视频游戏和电影制作等领域有广泛应用。


随着扩散模型(Diffusion Models)在近两年的快速发展,图像生成取得了很大突破,从Stable Diffusion衍生出的一系列根据文本描述产生图像的开源或商业模型已经对设计、游戏等领域产生了巨大影响。


然而,如何根据给定的文本或其他条件,产生高质量的多视角图像(multiview images)仍然是一个挑战,已有的方法在多视图一致性上存在明显的缺陷。


目前常见的方法可以大致分为两类。


第一类方法致力于生成一个场景的图片以及深度图,并得到对应的mesh,如Text2Room,SceneScape——首先用Stable Diffusion生成第一张图片,然后使用图像扭转(Image Warping)和图像补全(image inpainting)的自回归方式生成后续的图片以及深度图。


但是,这样的方案容易导致错误在多张图片的生成过程中逐渐累积,并且通常存在闭环问题(比如在相机旋转一圈回到起始位置附近时,生成的内容与第一张图片并不完全一致),导致其在场景规模较大或图片间视角变化较大时的效果欠佳。


第二类方法通过拓展扩散模型的生成算法,并行生成多张图片以产生比单张图片更丰富的内容(如产生360度全景图,或将一张图片的内容向两侧无限外推),如MultiDiffusion和DiffCollage。但是,由于没有考虑相机模型,这类方法的生成结果并不是真正的全景图。

MVDiffusion的目标是产生内容上严格符合给定的相机模型,且全局语义统一的多视角图片。其方法的核心思想是同步去噪(simultaneous denoising)和基于图片之间对应关系(correspondence)的一致性学习。


论文链接:https://arxiv.org/abs/2307.01097

项目网站:https://mvdiffusion.github.io/

Demo: https://huggingface.co/spaces/tangshitao/MVDiffusion

代码:https://github.com/Tangshitao/MVDiffusion

发表会议:NeurIPS(spotlight)


MVDiffusion的目标是产生内容高度一致且全局语义统一的多视角图片,其方法的核心思想是同步去噪(simultaneous denoising)和基于图片之间对应关系的全局意识(global awareness)。


具体地,研究人员对已有的文本-图片扩散模型(如Stable Diffusion)进行拓展,首先让其并行地处理多张图片,并进一步在原本的UNet中加入额外的「Correspondence-aware Attention」机制来学习多视角间的一致性和全局的统一性。


通过在少量的多视角图片训练数据上进行微调,最后得到的模型能够同步生成内容高度一致的多视角图片。


MVDiffusion已经在三种不同的应用场景取得了良好的效果:

1. 根据文字生成多视图以拼接得到全景图;

2. 将透视图像外推(outpainting)得到完整的360度全景图;

3. 为场景生成材质(texture)。


应用场景展示


应用1:全景图生成(根据文字)


以生成全景图(panorama)为例,输入一段描述场景的文字(prompt),MVDIffusion能生成一个场景的多视角图片。


如输入「This kitchen is a charming blend of rustic and modern, featuring a large reclaimed wood island with marble countertop, a sink surrounded by cabinets. To the left of the island, a stainless-steel refrigerator stands tall. To the right of the sink, built-in wooden cabinets painted in a muted」,能得到以下8张多视角图片:



这8张图片能够拼接成一张全景图:



MVDiffusion也支持为每张图片提供不同的文字描述,但是这些描述之间需要保持语义上的一致性。


应用2:全景图生成(根据一张透视图像)


MVDiffusion能够将一张透视图像外推(outpainting)成完整的360度全景图。


比,如输入下面这张透视图:


MVDiffusion能进一步生成下面的全景图:



可以看到,生成的全景图在语义上对输入图片进行了扩展,而且最左和最右的内容是相连的(没有闭环问题)。


应用3:生成场景材质


给定一个无材质的场景mesh,MVDiffusion可以为其生成材质(texture)。


具体地,我们首先通过渲染mesh得到多视角的深度图(depth map),通过相机位姿(pose)以及深度图,我们可以获得多视角图片的像素之间的对应关系。


接着,MVDiffusion以多视角depth map作为条件,同步生成一致的多视角RGB图片。


因为生成的多视角图片能保持内容的高度一致,将它们再投回mesh,即可以得到高质量的带材质的mesh(textured mesh)。



更多效果示例


全景图生成

 



 
值得一提的是,在这个应用场景中,虽然训练MVDiffusion时用到的多视角图片数据都是来自室内场景的全景图,风格单一。

但是,由于MVDiffusion没有改变原本的Stable Diffusion的参数而只是训练了新加入的Correspondence-aware Attention。

最后,模型依然能根据给定的文本产生各种不同风格的多视角图片(如室外,卡通等)。


单视图外推





场景材质生成




具体方法介绍


我们将先介绍MVDiffusion在三个不同的任务中具体的图片生成流程,最后再介绍方法的核心,「Correspondence-aware Attention」模块。


图1:MVDiffusion概览


1. 全景图生成(根据文字)


MVDiffusion同步生成8张带有重叠的图片(perspective image),然后再将这8中图片缝合(stitch)成全景图。在这8张透视图中,每两张图之间由一个3x3单应矩阵(homographic matrix)确定其像素对应关系。


在具体的生成过程中,MVDiffusion首先通过高斯随机初始化生成8个视角的图片。


然后,将这8张图片输入到一个具有多分支的Stable Diffusion预训练Unet网络中,进行同步去噪(denoising)得到生成结果。


其中UNet网络中加入了新的「Correspondence-aware Attention」模块(上图中淡蓝色部分),用于学习跨视角之间的几何一致性,使得这8张图片可以被拼接成一张一致的全景图。

2. 全景图生成(根据一张透视图片)


MVDiffusion也可以将单张透视图补全成全景图。与全景图生成相同,MVDiffusion将随机初始化的8个视角图片(包括透视图对应的视角)输入到多分支的Stable Diffusion Inpainting预训练的UNet网络中。


不同的是,Stable Diffusion Inpainting模型中的UNet通过额外的输入掩码(mask)来区分作为条件的图片和将要生成的图片。


对于透视图所对应的视角,这个掩码是1,这个分支的UNet会直接恢复该透视图。对于其他视角,这个掩码是0,对应分支的UNet会生成新的透视图。


同样地,MVDiffusion使用「Correspondence-aware Attention」模块来学习生成图片与条件图片之间的几何一致性与语义统一性。

3. 场景材质生成


MVDiffusion首先基于深度图以及相机位姿生成一条轨迹上的RGB图片,然后使用TSDF fusion将生成的RGB图片与给定的深度图合成mesh。


RGB图片的像素对应关系可以通过深度图和相机位姿得到。


与全景图生成一样,我们使用多分支UNet,并插入「Correspondence-aware Attention」来学习跨视角之间的几何一致性。


4. Correspondence-aware Attention机制


「Correspondence-aware Attention」(CAA),是MVDiffusion的核心,用于学习多视图之间的几何一致性和语义统一性。


MVDiffusion在Stable Diffusion UNet中的每个UNet block之后插入「Correspondence-aware Attention」block。CAA通过考虑源特征图和N个目标特征图来工作。


对于源特征图中的一个位置,我们基于目标特征图中的对应像素及其邻域来计算注意力输出。



具体来说,对于每个目标像素t^l,MVDiffusion通过在(x/y)坐标上添加整数位移(dx/dy)来考虑一个K x K的邻域,其中|dx|<K/2并且|dy|< K/2。


在实际使用中,MVDiffusion使用K=3,并选择9点的邻域来为全景图提高质量,而对于受几何条件限制的多视图图像生成,为了提升运行效率选择使用K=1。



CAA模块的计算遵循标准的注意力机制,如上图的公式所示,其中W_Q、W_K和W_V是query、key和value矩阵的可学习权重;目标特征不位于整数位置,而是通过双线性插值获得的。


关键的区别是基于源图像中的对应位置s^l与s之间的2D位移(全景)或1D深度误差(几何)向目标特征添加了位置编码。


在全景生成中(应用1和应用2),这个位移提供了本地邻域中的相对位置。


而在深度到图像生成中(应用3),视差提供了关于深度不连续或遮挡的线索,这对于高保真图像生成非常重要。


注意,位移是一个2D(位移)或1D(深度误差)向量,MVDiffusion将标准频率编码应用于x和y坐标中的位移。


参考资料:
https://mvdiffusion.github.io/






微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCR二次元专供:Midjourney发布动漫风格图像生成APP在北美完美复刻淄博烧烤~秋天应季葡萄农场直送到家!爆款新品、现做烘焙也打折啦~NeurIPS 2023 | PointGPT:点云和GPT大碰撞!点云的自回归生成预训练【坛庆 2023】暖场 忘了你 忘了我NeurIPS 2023 | 无惧图像中的文字,TextDiffuser提供更高质量文本渲染NeurIPS 2023 | SlotDiffusion: 基于Slot-Attention和扩散模型的全新生成模型NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!NeurIPS 2023 Spotlight | 半监督与扩散模型结合,实现少标签下可控生成月亮船NeurIPS 2023 | 港科大提出EAC:"可解释一切"图像概念解释器NeurIPS 2023 | 王利民团队提出MixFormerV2:首个基于ViT并在CPU设备实时运行的目标跟踪器!NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!NeurIPS 2023 | 「解释一切」图像概念解释器来了,港科大团队出品CIIE Watch | Sustainability in Spotlight: from Product to BoothNeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务相聚多伦多(十)左眼慈悲,右眼死亡Financial Aid in Spotlight As Student Flaunts $209 ConcertMigratory Birds Protection in Spotlight at World Coastal Forum【2023 坛庆】树梢上的芭蕾NeurIPS 2023 | 结合脉冲神经网络和Transformer的纯加法Transformer【游吟诗稿】老去「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023无惧图像中的文字,TextDiffuser提供更高质量文本渲染China’s Rural Children Close Height, Weight Gap, but Obesity Loo仅用三张图,合成高质量的3D场景,NTU提出SparseNeRF【坛庆 2023】暖场 刀郎的新歌《花妖》by 远风LLM生成延迟降低50%!DeepSpeed团队发布FastGen:动态SplitFuse技术,提升2.3倍有效吞吐量China's Top Court Spotlights Domestic Violence Children语言模型战胜扩散模型!谷歌提出MAGVIT-v2:视频和图像生成上实现双SOTA!NeurIPS 2023 | 超越YOLO系列!华为提出Gold-YOLO:实时目标检测新SOTAnǚ hóng?nǚ gōng对是「硬心腸」还是沒心腸?一文速览NeurIPS 2023大模型/预训练/上下文学习相关Spotlight文章美国养老院的故事【坛庆 2023】暖场 单依纯版【你的珍藏】NeurIPS 2023 Spotlight | 面向通用决策场景的MCTS基准框架:LightZeroNeurIPS 2023 | MSRA、清华、复旦等联合提出AR-Diffusion:基于自回归扩散的文本生成NeurIPS 2023 Spotlight | 探索不变学习中的充分必要因果【坛庆 2023】暖场 《打虎上山
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。