CVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
转载自:CSIG文档图像分析与识别专委会
本文简要介绍CVPR 2023录用论文“Unifying Layout Generation with a Decoupled Diffusion Model”的主要工作。该论文提出基于解耦扩散模型的LDGM方法,将现有版面生成任务进行统一,实现更加通用的版面生成。LDGM将版面里任意缺失或粗定义的元素当作扩散过程中的中间状态。考虑到不同属性的不同特点,LDGM将不同属性的扩散过程进行解耦。实验结果表明LDGM可以在无条件\给定任意属性条件下进行版面生成。定量和定性比较实验表明LDGM性能优于现有的SOTA方法。
图1. LDGM将版面生成统一成扩散(加噪)过程和生成(去噪)过程.
一、研究背景
版面决定了一些格式化场景(如出版物、文档、交互界面等)中元素的位置以及大小。版面生成任务旨在生成包含各种类别、大小、位置、相互关系的元素的版面。实现版面生成自动化可以有效降低版面设计工作者的工作量,可以辅助多种实际设计场景。现有方法大多仅针对版面生成任务中的特定子任务,例如在给定类别条件下进行生成、在给定类别和位置条件下进行生成、对版面进行微调等,而无法同时完成不同的子任务。为了将多种子任务进行统一,实现更加通用的版面生成,本文提出基于扩散模型的LDGM方法,将各种不同条件的输入当成扩散模型的中间过程,从而实现在无条件\给定任意属性条件下都能实现版面生成任务。本文提出对不同属性的扩散过程进行解耦,以此更好地满足不同属性的不同扩散特性要求,且可以作为一种数据增广方式,使得训练数据更加多样。
二、方法原理简述
扩散加噪过程。本文基于VQ-diffusion方法采用离散扩散方式:定义为任意属性,其中K
其中为保持类别不变的概率,为替换成另一类别的概率,为进行遮掩的概率,根据马尔可夫链性质:
基于,可以得到加噪过程的后验分布:
考虑到不同属性有不同的特点,本文将不同属性的扩散过程解耦开来,首先是概率转移矩阵的解耦,即对不同的属性定义不同的概率转移举证:对于元素类别这一属性,
其中为状态所处类别的位置。
其次是扩散时间线的解耦:如图3训练伪代码所示,不同属性加噪所采用的时间t是不同的。
去噪生成过程。神经网络通过学习输出,优化目标为最小化目标分布和模型输出分布的KL散度以及精确定义属性的重构损失:
生成过程采用本文提出的策略:如图5生成过程伪代码所示,每个时间步仅对预测概率在Top K的属性进行保留,而其余缺失位置则继续保持遮掩状态。
模型结构。如图4所示,本文采用基于Transformer的网络结构来预测
三、主要实验结果及可视化结果
四、总结及讨论
五、相关资源
原文作者:Mude Hui, Zhizheng Zhang, Xiaoyi Zhang, Wenxuan Xie, Yuwang Wang, Yan Lu
点击进入—>【计算机视觉】微信技术交流群
最新CVPP 2023论文和代码下载
后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
扩散模型和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如扩散模型或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!
▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
微信扫码关注该文公众号作者